Проблема с обработкой HTML содержимого
Работаю с извлечением данных из HTML через document.documentElement.innerHTML
, но в результатах появляется содержимое JavaScript кода, которое мне не нужно.
var pageContent = document.documentElement.innerHTML;
var matches = pageContent.match(/(.*)[:](.*)/g);
var cleanResults = [];
for (let i = 0; i < matches.length; i++) {
cleanResults[i] = removeHtmlTags(matches[i]);
console.log(cleanResults[i].split(/[\<>&=:]/));
}
function removeHtmlTags(text) {
if (!text || text === '') return false;
return text.toString().replace(/<[^>]*>/g, '');
}
<li>Товар ID : Товар 25</li>
<li>Баллы товара : 150</li>
<span>Статус : В наличии</span>
Получаю в консоли:
- ["Товар ID “, " Товар 25”]
- ["Баллы товара “, " 150”]
- [“Статус”, “В наличии”]
- [" var matches “, " pageContent.match(/(.*)”]
- [" console.log(cleanResults[i]. split(/["]
Как убрать из результатов строки 4 и 5, которые берутся из JavaScript кода? Нужны только данные из HTML разметки.