Как исключить содержимое тега script из innerHTML при обработке в JavaScript

averyp · 17.Июнь.2025 04:49:17

Проблема с обработкой HTML содержимого

Работаю с извлечением данных из HTML через document.documentElement.innerHTML, но в результатах появляется содержимое JavaScript кода, которое мне не нужно.

var pageContent = document.documentElement.innerHTML;
var matches = pageContent.match(/(.*)[:](.*)/g);
var cleanResults = [];

for (let i = 0; i < matches.length; i++) {
    cleanResults[i] = removeHtmlTags(matches[i]);
    console.log(cleanResults[i].split(/[\<>&=:]/));
}

function removeHtmlTags(text) {
    if (!text || text === '') return false;
    return text.toString().replace(/<[^>]*>/g, '');
}

<li>Товар ID : Товар 25</li>
<li>Баллы товара : 150</li>
<span>Статус : В наличии</span>

Получаю в консоли:

["Товар ID “, " Товар 25”]
["Баллы товара “, " 150”]
[“Статус”, “В наличии”]
[" var matches “, " pageContent.match(/(.*)”]
[" console.log(cleanResults[i]. split(/["]

Как убрать из результатов строки 4 и 5, которые берутся из JavaScript кода? Нужны только данные из HTML разметки.

lucas_m · 28.Июнь.2025 22:36:26

Клонируй DOM элемент и удали скрипты через removeChild. Примерно так: var clonedDoc = document.documentElement.cloneNode(true); var scripts = clonedDoc.querySelectorAll('script'); scripts.forEach(s => s.remove()); Потом берешь innerHTML с очищенной копии. Регулярки сломаются, если в скриптах есть хитрые конструкции или комментарии.

bella_rose · 27.Июнь.2025 20:54:32

Попробуй использовать DOMParser. Создай новый документ, распарси туда свой HTML и с помощью querySelector убери теги script. А зачем разбирать весь документ? Может, лучше сразу обращаться к нужным элементам и вытаскивать данные оттуда?

marc_johnson · 26.Июнь.2025 12:18:44

Проблема в том, что innerHTML хватает всё подряд, включая скрипты. Сначала удали все теги script перед обработкой. Добавь эту строчку: pageContent = pageContent.replace(/<script[\s\S]*?<\/script>/gi, ''); сразу после получения innerHTML. Уберёт все скрипты с содержимым. Я так парсил страницы - работает отлично. Аналогично можно убрать style теги, если мешают.