Javascript.RU

Создать новую тему Ответ
 
Опции темы Искать в теме
  #1 (permalink)  
Старый 19.07.2015, 19:20
Аватар для cyber
I am Student
Отправить личное сообщение для cyber Посмотреть профиль Найти все сообщения от cyber
 
Регистрация: 17.12.2011
Сообщений: 4,415

как правильно прасить веб страницы nodejs
Как парсить веб страницы, что бы сильно не привязыватся к разметки страницы ?
Часто советуют юзать что то типо такого https://github.com/cheeriojs/cheerio что ты просто потом выбирать элементы и доставать из них содержимое, но если поменяют разметку, то придется переделывать, какие есть алгоритмы, парсинга страниц что бы не быть привязаным к разметки?
Я понимаю что это будет не просто решение)
__________________
Цитата:
Если ограничения и условия описываются как "коробка", то хитрость в том что бы найти именно коробку... Не думайте о чем то глобальном - найдите коробку.
Ответить с цитированием
  #2 (permalink)  
Старый 19.07.2015, 19:42
Профессор
Отправить личное сообщение для l-liava-l Посмотреть профиль Найти все сообщения от l-liava-l
 
Регистрация: 14.03.2012
Сообщений: 1,808

Цитата:
Как парсить веб страницы, что бы сильно не привязыватся к разметки страницы ?
Часто советуют юзать что то типо такого https://github.com/cheeriojs/cheerio что ты просто потом выбирать элементы и доставать из них содержимое, но если поменяют разметку, то придется переделывать, какие есть алгоритмы, парсинга страниц что бы не быть привязаным к разметки?
Я понимаю что это будет не просто решение)
Ну тебе полюбому нужно знать какой-то ключ по которому можно вытащить нужный тебе контент.
А т.к ты не владелец сайта то ключ могут поменять в любой момент. Так что либо верить в то что верстка не поменяется либо API у них попроси
__________________
Научу себя плохому
Ответить с цитированием
  #3 (permalink)  
Старый 21.07.2015, 19:36
Аватар для cyber
I am Student
Отправить личное сообщение для cyber Посмотреть профиль Найти все сообщения от cyber
 
Регистрация: 17.12.2011
Сообщений: 4,415

Мне интересно как работают продивинутые алгоритмы которые сканируют страницы)
__________________
Цитата:
Если ограничения и условия описываются как "коробка", то хитрость в том что бы найти именно коробку... Не думайте о чем то глобальном - найдите коробку.
Ответить с цитированием
  #4 (permalink)  
Старый 21.07.2015, 21:05
Аватар для kobezzza
Быдлокодер;)
Отправить личное сообщение для kobezzza Посмотреть профиль Найти все сообщения от kobezzza
 
Регистрация: 19.11.2010
Сообщений: 4,338

Сообщение от cyber Посмотреть сообщение
Мне интересно как работают продивинутые алгоритмы которые сканируют страницы)
Как вариант: машинное обучение.
__________________
kobezzza
code monkey
Ответить с цитированием
Ответ



Опции темы Искать в теме
Искать в теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
как правильно отслеживать вставку html() bombascter jQuery 15 20.11.2012 09:47
Много кода, как правильно розкладывать vlikin Общие вопросы Javascript 1 24.10.2012 14:01
Как правильно очистить maxlength в input? Маэстро Events/DOM/Window 10 22.06.2011 18:14
Как поместить iframe в угол страницы? xaknik Events/DOM/Window 4 31.07.2010 02:41