subzey,
У меня не паранойя, а шизофрения. зы: паранойя у меня по поводу за всеми следят кто надо. :) |
Gozar,
ах этот Гугл, который знает, что мы ищем, какие сайты посещаем, где мы находимся, нашу переписку, наши фотографии, наши документы, да еще и обозревает нас со спутника! |
парсинг-грабинг тема конечно интересная, но совсем новая для меня.
Стыдно, но до курла руки пока не дошли( особо не надо было никогда). Только file_get_contents. Неужели так легко слизать сайт? Ну я понимаю те сайты которые свой контент для поисковиков предоставляют. А если это не главное, то на ajax-е можно же замутить защиту похитрее? Ну получил курл кучу хтмл и кода, да только не всего, что он его запускать станет? |
micscr, это уже забота составителя граббера. Парсер сам по себе не догадается, что нужно еще один (несколько) запросов (возможно, маскируясь под XHR) отправить для получения "полной картины".
А курл в основном используется, если не ошибаюсь, когда нужны сессии (имитируем залогиненного юзера) или специфические методы (POST, загрузка файлов, etc). |
Цитата:
Цитата:
хотя есть пара глюков в нем, например с куками. хотя есть сферы, где и им нужных средств не достигнешь, и приходится уже писать на голых сокетах |
Года три назад я через курл шарился из одной канторы по сайтам вроде bash-орга, там на тему "какие сайты смотришь" был пунктик, могли даже рукавицами ежевыми по зарплате погладить если что не понравиться. Технология у него действительно проста как танк т34.
|
И вообще я тогда php больше уважал, чем сейчас.
|
Цитата:
|
Цитата:
|
Цитата:
или вы думаете, что я брал лопату, одевал валенки и шел во двор курл разгребать? ;) насколько мне известно курл в браузере не работает. |
Хм. Свой "прокси" с помощью curl, конечно, вариант... Сейчас я бы уже пользовался своим мобильным интернетом :)
|
Цитата:
писать же с нуля на сокетах как-то не очень комильфо к сожалению готового класса для сокетов под мои нужды я не видел, и не уверен, что он существует в паблике. а нужна мне многопоточность. те классы которые я видел под неблокируемые сокеты не подлежат простому переделыванию. для CURL-а же, я написал вполне пристойную систему классов, которая реализует логику менеджера и обработчика закачек. все весьма красиво, и под мои проекты мне приходится писать код как для обычной CURL-закачки, просто разделенный на два метода, а остальное за меня делает моя система классов |
Gvozd,
А по вашему мнению какие наиболее защищенные сайты от копипаста? Не могли бы вы пару тройку указать и уточнить почему. Поисковики если что не надо. Это мне так ради интереса :) |
вернее даже не наиболее, а самые защищенные. Ajax - шмаjax тоже подойдет :)
|
Цитата:
=) На данный момент единственная вещь из попавшихся мне, которую я не смог преодолеть - это была капча гугла. но и то скорее по неопытности. щаз думаю смог бы обойти, если поступит заказ. вообще же не вижу смысла публиковать те сайты, с которыми у меня было больше возни, или каким должен быть сайт, чтобы я не смог его сграбить. потому что это мой хлеб.я по темную сторону баррикад, и мне здесь вполне отлично |
Жаль что разговор исчерпал себя так быстро. Копипаст это слишком скучно - технология весело ;)
|
Все равно я не совсем понимаю о чем вы. Что значит скопипастить сайт?
Сайт сейчас - это код (например php), данные в БД + шаблоны html. Ну слизали текущую текстовую составляющую - все равно это же не готовый сайт. Она годится чтобы в уже готовый вставить. Другой вариант - кто-то выставляет уник. инфу а другой по распорядку тырит данные у него. Это же тоже - не скопипастить сайт и требует индивидуальной работы. Увидел, что у него тырят, поменял разметку в шаблоне и уже временно "не тырят". |
Цитата:
я за 5 минут сделаю строение и базу под готовый сайт средних размеров. Дизайн и шаблоны в помойку. и вот появился еще один клон в удобной форме на компе. Цитата:
|
Цитата:
Ну например есть у меня на страничке (построенной на таблицах) супер заныканая ячейка в которой я храню интересную инфу. Кто-то написал бота, который загружает эту страничку, анализирует html и ищет эту инфу. Сделал я перекидку, что не прийдется заново алгоритм парсера пересмотреть или они уже такие интеллектуальные? |
Страница копируется целиком, без разбора, что контент, а что просто оформление.
|
Цитата:
обычно делать полный клон не имеет смысла.хоть и такое делается частенько. чаще же имеет смысл тырить не сайт, а инфу на нем. то есть если это сайт с курсами НБУ, то обычно требуется небольшой массив курсовы, или же пара строк в БД. и для этого приходится копать HTML-код страницы Цитата:
в большинстве случае на пять минут работы для автора парсера. единственно, что обычно такое обслуживание парсера не включается в стоимость заказа, и посему заказчику приходится таки платить за доработку |
Говоря парсер, мы урезаем себя в возможностях. Я бы сказал синтаксический анализатор на основе дерева документа. Хотя возможно на четко определенных проектах четко заточенный парсер работать будет быстрее, но без привязки к определенному проекту синтаксический анализатор даст более правильную картину страницы.
|
писать парсер под каждый проект я считаю непозволительной роскошью :)
|
Цитата:
платного, бесплатного, десктопных программ, скриптовых, или библиотек? хотелось бы глянуть на них Цитата:
|
Цитата:
|
Цитата:
|
Цитата:
http://www.anti-captcha.com/ |
Цитата:
я не преуспел в сохранении сесии тогда. о глюке CURL-а с сохранением кукисов я узнал позже |
да, век живи, век удивляйся.
Это уже полностью автоматизировано, я так понимаю? Т.е. зашел бот на сайт, получил капчу, отправил на тот сервис(где он получается зарегистрирован), получил текст и зарегался? |
А если эту картинку предварительно разбить на 10 частей и уже на странице собирать, что тогда?
|
Цитата:
|
Цитата:
Я тут подумал если держать у себя картинку 200px*200px с набором различных капчей и на сервере хранить какая из них а клиенту передавать только соответствующие отступы для фона элемента заданного размера, то думаю справимся с граберами. :victory: :) |
Цитата:
|
Цитата:
|
Цитата:
|
Цитата:
|
Цитата:
Цитата:
Цитата:
работаю именно этим инструментом(если ты подразумеваешь DOM classes) и почему-то он у меня отлично работает. и не падает ничего. и верстку невалидную я ему на ура скармливаю. вернее сказать, я вообще не проверяю валидная ли верстка. если бы использовал регулярки как свой основной инструмент, я бы не занял бы ту позицию на рынке, которую занимаю. на голых регулярках далеко не уедешь. XPath-сила |
Цитата:
Цитата:
Цитата:
Цитата:
|
Хоть я и не занимаюсь парсерами профессионально, соглашусь с Gvozd'ем, регулярки для разбора html не подходят, только конечный автомат.
|
Цитата:
DOM classes связаны с разбором XML-а(и даже HTML-а) Цитата:
особенно мне не смешно было когда я в прошлом месяце загуглил универсальное решение проблемы кодировок при работе с этими классами. ранее почему-то в одном и том-же случае я получал совершенно разные результаты на выходе, которые не поддавалась декодированию ни логикой ни iconv порой. просто немного упорства нужно если нечто есть в PHP, то значит кто-то же его разрабатывал и тестировал. и кто-то же пользуется этим. именно упорство помогло мне сделать красивый класс для многопоточной закачки на CURL-е. Уникальных русскоязычных статей по теме multi-CURL штуки три. примеров кода не из документации(там они не раскрывают всех тонкостей) вообще в интернете также мало. пришлось потратить немало времени. Цитата:
высвободившееся время можно с толком потратить на что-то полезное или интересное Цитата:
а разве DOM-парсер и регулярные выражения не являются оба конечными автоматами? первый с набор всегда одинаковым набором состояний и переходов, а второй даже таблицу переходов в явном виде не составляет(полагаю) кстати к DOM-у еще прилагается XPath, также являющийся конечным автоматом. |
Часовой пояс GMT +3, время: 00:54. |