как правильно прасить веб страницы nodejs
Как парсить веб страницы, что бы сильно не привязыватся к разметки страницы ?
Часто советуют юзать что то типо такого https://github.com/cheeriojs/cheerio что ты просто потом выбирать элементы и доставать из них содержимое, но если поменяют разметку, то придется переделывать, какие есть алгоритмы, парсинга страниц что бы не быть привязаным к разметки? Я понимаю что это будет не просто решение) |
Цитата:
А т.к ты не владелец сайта то ключ могут поменять в любой момент. Так что либо верить в то что верстка не поменяется либо API у них попроси :) |
Мне интересно как работают продивинутые алгоритмы которые сканируют страницы)
|
Цитата:
|
Часовой пояс GMT +3, время: 20:11. |