Javascript-форум - Ящик Пандоры или тотальный копипаст

Javascript-форум (https://javascript.ru/forum/)

- Оффтопик (https://javascript.ru/forum/offtopic/)

- - Ящик Пандоры или тотальный копипаст (https://javascript.ru/forum/offtopic/8129-yashhik-pandory-ili-totalnyjj-kopipast.html)

Цитата:

Сообщение от micscr

Это уже полностью автоматизировано, я так понимаю?

Индусские фирмы берут где-то по 5 долларов за 1000 каптч.

Цитата:

Сообщение от Kolyaj (Сообщение 47519)

Индусские фирмы берут где-то по 5 долларов за 1000 каптч.

Kolyaj, они выше ссылочку кинули где за 1$ 1000 каптч.

Я тут подумал если держать у себя картинку 200px*200px с набором различных капчей и на сервере хранить какая из них а клиенту передавать только соответствующие отступы для фона элемента заданного размера, то думаю справимся с граберами. :victory: :)

Цитата:

Сообщение от micscr

Kolyaj, они выше ссылочку кинули где за 1$ 1000 каптч.

Ну значит я от жизни отстал :)

Цитата:

а клиенту передавать только соответствующие отступы для фона элемента заданного размера

т.е. передавать их и боту ;)

Цитата:

Сообщение от Gozar (Сообщение 47506)

Говоря парсер, мы урезаем себя в возможностях. Я бы сказал синтаксический анализатор на основе дерева документа. Хотя возможно на четко определенных проектах четко заточенный парсер работать будет быстрее, но без привязки к определенному проекту синтаксический анализатор даст более правильную картину страницы.

Пробовал я такое. В php есть специальные функции для построения дерева по коду страницы. Если вёрстка кривая то падает всё с ошибками. Лучше регулярками крамсать.

Цитата:

Сообщение от Tim (Сообщение 47531)

Лучше регулярками крамсать.

Да неужели?!

Цитата:

Сообщение от micscr

А если эту картинку предварительно разбить на 10 частей и уже на странице собирать, что тогда?

парсер также склеит ее и отправит на капча-сервис

Цитата:

Сообщение от micscr

клиенту передавать только соответствующие отступы для фона элемента заданного размера, то думаю справимся с граберами.

опять-таки нет

Цитата:

Сообщение от Tim

не смеши меня пожалуйста.
работаю именно этим инструментом(если ты подразумеваешь DOM classes)
и почему-то он у меня отлично работает.
и не падает ничего.
и верстку невалидную я ему на ура скармливаю.
вернее сказать, я вообще не проверяю валидная ли верстка.
если бы использовал регулярки как свой основной инструмент, я бы не занял бы ту позицию на рынке, которую занимаю.
на голых регулярках далеко не уедешь.
XPath-сила

Цитата:

если ты подразумеваешь DOM classes

Кажется да, но не уверен. Там ещё с XML что-то есть. Я быстро с этим способом завязал т.к. глюки не мог устранить. Так что сейчас даже не вспомню.

Цитата:

не смеши меня пожалуйста.

Не вижу ни чего смешного. По крайней мере мне не смешно было :(

Цитата:

на голых регулярках далеко не уедешь

Да, трудности возникают.

Цитата:

я бы не занял бы ту позицию на рынке, которую занимаю

Не в обиду будет сказано, но как то это немного пафосно звучит.

Хоть я и не занимаюсь парсерами профессионально, соглашусь с Gvozd'ем, регулярки для разбора html не подходят, только конечный автомат.

Цитата:

Сообщение от Tim

именно так и есть
DOM classes связаны с разбором XML-а(и даже HTML-а)

Цитата:

Сообщение от Tim

Не вижу ни чего смешного. По крайней мере мне не смешно было

мне тоже не смешно было
особенно мне не смешно было когда я в прошлом месяце загуглил универсальное решение проблемы кодировок при работе с этими классами.
ранее почему-то в одном и том-же случае я получал совершенно разные результаты на выходе, которые не поддавалась декодированию ни логикой ни iconv порой.

просто немного упорства нужно
если нечто есть в PHP, то значит кто-то же его разрабатывал и тестировал.
и кто-то же пользуется этим.
именно упорство помогло мне сделать красивый класс для многопоточной закачки на CURL-е. Уникальных русскоязычных статей по теме multi-CURL штуки три.
примеров кода не из документации(там они не раскрывают всех тонкостей) вообще в интернете также мало.
пришлось потратить немало времени.

Цитата:

Сообщение от Tim

Да, трудности возникают.

написание XPath выражения занимает неприлично мало времени по сравнению с регулярками.
высвободившееся время можно с толком потратить на что-то полезное или интересное

Цитата:

Сообщение от subzey

регулярки для разбора html не подходят, только конечный автомат.

эм?
а разве DOM-парсер и регулярные выражения не являются оба конечными автоматами?
первый с набор всегда одинаковым набором состояний и переходов, а второй даже таблицу переходов в явном виде не составляет(полагаю)
кстати к DOM-у еще прилагается XPath, также являющийся конечным автоматом.