Javascript-форум (https://javascript.ru/forum/)
-   Оффтопик (https://javascript.ru/forum/offtopic/)
-   -   как правильно прасить веб страницы nodejs (https://javascript.ru/forum/offtopic/57101-kak-pravilno-prasit-veb-stranicy-nodejs.html)

cyber 19.07.2015 19:20

как правильно прасить веб страницы nodejs
 
Как парсить веб страницы, что бы сильно не привязыватся к разметки страницы ?
Часто советуют юзать что то типо такого https://github.com/cheeriojs/cheerio что ты просто потом выбирать элементы и доставать из них содержимое, но если поменяют разметку, то придется переделывать, какие есть алгоритмы, парсинга страниц что бы не быть привязаным к разметки?
Я понимаю что это будет не просто решение)

l-liava-l 19.07.2015 19:42

Цитата:

Как парсить веб страницы, что бы сильно не привязыватся к разметки страницы ?
Часто советуют юзать что то типо такого https://github.com/cheeriojs/cheerio что ты просто потом выбирать элементы и доставать из них содержимое, но если поменяют разметку, то придется переделывать, какие есть алгоритмы, парсинга страниц что бы не быть привязаным к разметки?
Я понимаю что это будет не просто решение)
Ну тебе полюбому нужно знать какой-то ключ по которому можно вытащить нужный тебе контент.
А т.к ты не владелец сайта то ключ могут поменять в любой момент. Так что либо верить в то что верстка не поменяется либо API у них попроси :)

cyber 21.07.2015 19:36

Мне интересно как работают продивинутые алгоритмы которые сканируют страницы)

kobezzza 21.07.2015 21:05

Цитата:

Сообщение от cyber (Сообщение 380723)
Мне интересно как работают продивинутые алгоритмы которые сканируют страницы)

Как вариант: машинное обучение.


Часовой пояс GMT +3, время: 20:11.