Javascript-форум (https://javascript.ru/forum/)
-   Оффтопик (https://javascript.ru/forum/offtopic/)
-   -   Ящик Пандоры или тотальный копипаст (https://javascript.ru/forum/offtopic/8129-yashhik-pandory-ili-totalnyjj-kopipast.html)

Kolyaj 12.03.2010 16:25

Цитата:

Сообщение от micscr
Это уже полностью автоматизировано, я так понимаю?

Индусские фирмы берут где-то по 5 долларов за 1000 каптч.

micscr 12.03.2010 16:41

Цитата:

Сообщение от Kolyaj (Сообщение 47519)
Индусские фирмы берут где-то по 5 долларов за 1000 каптч.

Kolyaj, они выше ссылочку кинули где за 1$ 1000 каптч.

Я тут подумал если держать у себя картинку 200px*200px с набором различных капчей и на сервере хранить какая из них а клиенту передавать только соответствующие отступы для фона элемента заданного размера, то думаю справимся с граберами. :victory: :)

Kolyaj 12.03.2010 16:44

Цитата:

Сообщение от micscr
Kolyaj, они выше ссылочку кинули где за 1$ 1000 каптч.

Ну значит я от жизни отстал :)

Tim 12.03.2010 17:51

Цитата:

а клиенту передавать только соответствующие отступы для фона элемента заданного размера
т.е. передавать их и боту ;)

Tim 12.03.2010 17:58

Цитата:

Сообщение от Gozar (Сообщение 47506)
Говоря парсер, мы урезаем себя в возможностях. Я бы сказал синтаксический анализатор на основе дерева документа. Хотя возможно на четко определенных проектах четко заточенный парсер работать будет быстрее, но без привязки к определенному проекту синтаксический анализатор даст более правильную картину страницы.

Пробовал я такое. В php есть специальные функции для построения дерева по коду страницы. Если вёрстка кривая то падает всё с ошибками. Лучше регулярками крамсать.

Gozar 12.03.2010 18:31

Цитата:

Сообщение от Tim (Сообщение 47531)
Лучше регулярками крамсать.

Да неужели?!

Gvozd 12.03.2010 20:14

Цитата:

Сообщение от micscr
А если эту картинку предварительно разбить на 10 частей и уже на странице собирать, что тогда?

парсер также склеит ее и отправит на капча-сервис
Цитата:

Сообщение от micscr
клиенту передавать только соответствующие отступы для фона элемента заданного размера, то думаю справимся с граберами.

опять-таки нет
Цитата:

Сообщение от Tim
Пробовал я такое. В php есть специальные функции для построения дерева по коду страницы. Если вёрстка кривая то падает всё с ошибками. Лучше регулярками крамсать.

не смеши меня пожалуйста.
работаю именно этим инструментом(если ты подразумеваешь DOM classes)
и почему-то он у меня отлично работает.
и не падает ничего.
и верстку невалидную я ему на ура скармливаю.
вернее сказать, я вообще не проверяю валидная ли верстка.
если бы использовал регулярки как свой основной инструмент, я бы не занял бы ту позицию на рынке, которую занимаю.
на голых регулярках далеко не уедешь.
XPath-сила

Tim 12.03.2010 23:28

Цитата:

если ты подразумеваешь DOM classes
Кажется да, но не уверен. Там ещё с XML что-то есть. Я быстро с этим способом завязал т.к. глюки не мог устранить. Так что сейчас даже не вспомню.

Цитата:

не смеши меня пожалуйста.
Не вижу ни чего смешного. По крайней мере мне не смешно было :(

Цитата:

на голых регулярках далеко не уедешь
Да, трудности возникают.

Цитата:

я бы не занял бы ту позицию на рынке, которую занимаю
Не в обиду будет сказано, но как то это немного пафосно звучит.

subzey 12.03.2010 23:31

Хоть я и не занимаюсь парсерами профессионально, соглашусь с Gvozd'ем, регулярки для разбора html не подходят, только конечный автомат.

Gvozd 13.03.2010 03:34

Цитата:

Сообщение от Tim
Кажется да, но не уверен. Там ещё с XML что-то есть. Я быстро с этим способом завязал т.к. глюки не мог устранить. Так что сейчас даже не вспомню.

именно так и есть
DOM classes связаны с разбором XML-а(и даже HTML-а)
Цитата:

Сообщение от Tim
Не вижу ни чего смешного. По крайней мере мне не смешно было

мне тоже не смешно было
особенно мне не смешно было когда я в прошлом месяце загуглил универсальное решение проблемы кодировок при работе с этими классами.
ранее почему-то в одном и том-же случае я получал совершенно разные результаты на выходе, которые не поддавалась декодированию ни логикой ни iconv порой.

просто немного упорства нужно
если нечто есть в PHP, то значит кто-то же его разрабатывал и тестировал.
и кто-то же пользуется этим.
именно упорство помогло мне сделать красивый класс для многопоточной закачки на CURL-е. Уникальных русскоязычных статей по теме multi-CURL штуки три.
примеров кода не из документации(там они не раскрывают всех тонкостей) вообще в интернете также мало.
пришлось потратить немало времени.
Цитата:

Сообщение от Tim
Да, трудности возникают.

написание XPath выражения занимает неприлично мало времени по сравнению с регулярками.
высвободившееся время можно с толком потратить на что-то полезное или интересное
Цитата:

Сообщение от subzey
регулярки для разбора html не подходят, только конечный автомат.

эм?
а разве DOM-парсер и регулярные выражения не являются оба конечными автоматами?
первый с набор всегда одинаковым набором состояний и переходов, а второй даже таблицу переходов в явном виде не составляет(полагаю)
кстати к DOM-у еще прилагается XPath, также являющийся конечным автоматом.


Часовой пояс GMT +3, время: 17:36.