парсинг сайта
Никогда не сталкивался с парсингом....может подскажет кто-то конкретные ссылки для просвещения с уклоном в сторону javascripta
|
Было подобное на форуме:
http://javascript.ru/forum/misc/2997...-s-sajjta.html Зависит от задачи, конечно, что там за сайт? В простейшем случае: делаем jQuery.load() куда-нибудь в блок на страницу и вытаскиваем данные с помощью той же jQuery.text() после загрузки. Альтернатива: на любом языке get'ом вытягиваем текст страницы (на php можно функцией file_get_contents) и пишем регулярки, либо используем готовые либы для парсинга DOM, аналогичные той же jquery. На php я в свое время использовал вот это, но имеются альтернативы. Если посложнее что-то, к примеру, много динамического контента, то уже другое дело, там, кмк, надо конкретный случай смотреть. Было бы интересно услышать полную задачу. |
http://ru.wikipedia.org/wiki/%D0%9F%...B8%D0%BD%D0%B3
в общем это преобразование данных к некоторому виду, обычно (что логично) удобному для использования, то есть цель этого преобразования - взять нужные данные из этих исходных данных например, вот эта штука http://www.dhtmlx.com/docs/products/dhtmlxTree/ может создать дерево из файла с текстом в формате CSV (http://ru.wikipedia.org/wiki/CSV) в парсере CSV используются регулярные выражения для того чтобы вытащить нужные данные из этого файла, в данном случае там делается разбивка по запятым и переносам строки xml-парсеры помогают взять данные из xml и т.п. если хочешь что-то вытащить из url - будешь парсить (так назвали, parse - разбор) |
короче из всего я сделал вывод, что всю основную работу надо делать на сервере...
|
Цитата:
|
Всем привет!
есть сайт https://ru.surebet.com/surebets и вот там под основным меню содержится информация которая меня и интересует (выделено красным). ![]() Так вот суть вопроса такова. Мне нужно сохранять те денные которые там появляются и пропадают периодически. Какие тут варианты возможны и как сделать это нубу с самым минимальным уровнем знаний в области программирования. Спасибо за комментарии! |
Цитата:
либо посмотреть какими запросами они подтягиваются и запрашивать их |
Цитата:
|
Цитата:
|
Цитата:
http://www.charlesproxy.com/ http://www.telerik.com/fiddler |
Часовой пояс GMT +3, время: 19:45. |