Javascript.RU

Создать новую тему Ответ
 
Опции темы Искать в теме
  #71 (permalink)  
Старый 12.03.2010, 16:25
Новичок на форуме
Отправить личное сообщение для Kolyaj Посмотреть профиль Найти все сообщения от Kolyaj
 
Регистрация: 19.02.2008
Сообщений: 9,177

Сообщение от micscr
Это уже полностью автоматизировано, я так понимаю?
Индусские фирмы берут где-то по 5 долларов за 1000 каптч.
Ответить с цитированием
  #72 (permalink)  
Старый 12.03.2010, 16:41
Аватар для micscr
Профессор
Отправить личное сообщение для micscr Посмотреть профиль Найти все сообщения от micscr
 
Регистрация: 10.09.2009
Сообщений: 1,575

Сообщение от Kolyaj Посмотреть сообщение
Индусские фирмы берут где-то по 5 долларов за 1000 каптч.
Kolyaj, они выше ссылочку кинули где за 1$ 1000 каптч.

Я тут подумал если держать у себя картинку 200px*200px с набором различных капчей и на сервере хранить какая из них а клиенту передавать только соответствующие отступы для фона элемента заданного размера, то думаю справимся с граберами.

Последний раз редактировалось micscr, 12.03.2010 в 16:43.
Ответить с цитированием
  #73 (permalink)  
Старый 12.03.2010, 16:44
Новичок на форуме
Отправить личное сообщение для Kolyaj Посмотреть профиль Найти все сообщения от Kolyaj
 
Регистрация: 19.02.2008
Сообщений: 9,177

Сообщение от micscr
Kolyaj, они выше ссылочку кинули где за 1$ 1000 каптч.
Ну значит я от жизни отстал
Ответить с цитированием
  #74 (permalink)  
Старый 12.03.2010, 17:51
Аватар для Tim
Tim Tim вне форума
Профессор
Отправить личное сообщение для Tim Посмотреть профиль Найти все сообщения от Tim
 
Регистрация: 05.06.2009
Сообщений: 1,703

Цитата:
а клиенту передавать только соответствующие отступы для фона элемента заданного размера
т.е. передавать их и боту
__________________
Лучше установить FreeBSD, чем потратить 30 лет на Linux'ы и выяснить какой из них хуже.
Самые главные в жизни вещи - не вещи! (было написано на одном гараже =)
Ответить с цитированием
  #75 (permalink)  
Старый 12.03.2010, 17:58
Аватар для Tim
Tim Tim вне форума
Профессор
Отправить личное сообщение для Tim Посмотреть профиль Найти все сообщения от Tim
 
Регистрация: 05.06.2009
Сообщений: 1,703

Сообщение от Gozar Посмотреть сообщение
Говоря парсер, мы урезаем себя в возможностях. Я бы сказал синтаксический анализатор на основе дерева документа. Хотя возможно на четко определенных проектах четко заточенный парсер работать будет быстрее, но без привязки к определенному проекту синтаксический анализатор даст более правильную картину страницы.
Пробовал я такое. В php есть специальные функции для построения дерева по коду страницы. Если вёрстка кривая то падает всё с ошибками. Лучше регулярками крамсать.
__________________
Лучше установить FreeBSD, чем потратить 30 лет на Linux'ы и выяснить какой из них хуже.
Самые главные в жизни вещи - не вещи! (было написано на одном гараже =)
Ответить с цитированием
  #76 (permalink)  
Старый 12.03.2010, 18:31
Аватар для Gozar
Отправить личное сообщение для Gozar Посмотреть профиль Найти все сообщения от Gozar
 
Регистрация: 07.06.2007
Сообщений: 7,504

Сообщение от Tim Посмотреть сообщение
Лучше регулярками крамсать.
Да неужели?!
Ответить с цитированием
  #77 (permalink)  
Старый 12.03.2010, 20:14
Аватар для Gvozd
Матрос
Отправить личное сообщение для Gvozd Посмотреть профиль Найти все сообщения от Gvozd
 
Регистрация: 04.04.2008
Сообщений: 6,246

Сообщение от micscr
А если эту картинку предварительно разбить на 10 частей и уже на странице собирать, что тогда?
парсер также склеит ее и отправит на капча-сервис
Сообщение от micscr
клиенту передавать только соответствующие отступы для фона элемента заданного размера, то думаю справимся с граберами.
опять-таки нет
Сообщение от Tim
Пробовал я такое. В php есть специальные функции для построения дерева по коду страницы. Если вёрстка кривая то падает всё с ошибками. Лучше регулярками крамсать.
не смеши меня пожалуйста.
работаю именно этим инструментом(если ты подразумеваешь DOM classes)
и почему-то он у меня отлично работает.
и не падает ничего.
и верстку невалидную я ему на ура скармливаю.
вернее сказать, я вообще не проверяю валидная ли верстка.
если бы использовал регулярки как свой основной инструмент, я бы не занял бы ту позицию на рынке, которую занимаю.
на голых регулярках далеко не уедешь.
XPath-сила
Ответить с цитированием
  #78 (permalink)  
Старый 12.03.2010, 23:28
Аватар для Tim
Tim Tim вне форума
Профессор
Отправить личное сообщение для Tim Посмотреть профиль Найти все сообщения от Tim
 
Регистрация: 05.06.2009
Сообщений: 1,703

Цитата:
если ты подразумеваешь DOM classes
Кажется да, но не уверен. Там ещё с XML что-то есть. Я быстро с этим способом завязал т.к. глюки не мог устранить. Так что сейчас даже не вспомню.

Цитата:
не смеши меня пожалуйста.
Не вижу ни чего смешного. По крайней мере мне не смешно было

Цитата:
на голых регулярках далеко не уедешь
Да, трудности возникают.

Цитата:
я бы не занял бы ту позицию на рынке, которую занимаю
Не в обиду будет сказано, но как то это немного пафосно звучит.
__________________
Лучше установить FreeBSD, чем потратить 30 лет на Linux'ы и выяснить какой из них хуже.
Самые главные в жизни вещи - не вещи! (было написано на одном гараже =)
Ответить с цитированием
  #79 (permalink)  
Старый 12.03.2010, 23:31
Аватар для subzey
Пионэр
Отправить личное сообщение для subzey Посмотреть профиль Найти все сообщения от subzey
 
Регистрация: 16.11.2009
Сообщений: 1,322

Хоть я и не занимаюсь парсерами профессионально, соглашусь с Gvozd'ем, регулярки для разбора html не подходят, только конечный автомат.
Ответить с цитированием
  #80 (permalink)  
Старый 13.03.2010, 03:34
Аватар для Gvozd
Матрос
Отправить личное сообщение для Gvozd Посмотреть профиль Найти все сообщения от Gvozd
 
Регистрация: 04.04.2008
Сообщений: 6,246

Сообщение от Tim
Кажется да, но не уверен. Там ещё с XML что-то есть. Я быстро с этим способом завязал т.к. глюки не мог устранить. Так что сейчас даже не вспомню.
именно так и есть
DOM classes связаны с разбором XML-а(и даже HTML-а)
Сообщение от Tim
Не вижу ни чего смешного. По крайней мере мне не смешно было
мне тоже не смешно было
особенно мне не смешно было когда я в прошлом месяце загуглил универсальное решение проблемы кодировок при работе с этими классами.
ранее почему-то в одном и том-же случае я получал совершенно разные результаты на выходе, которые не поддавалась декодированию ни логикой ни iconv порой.

просто немного упорства нужно
если нечто есть в PHP, то значит кто-то же его разрабатывал и тестировал.
и кто-то же пользуется этим.
именно упорство помогло мне сделать красивый класс для многопоточной закачки на CURL-е. Уникальных русскоязычных статей по теме multi-CURL штуки три.
примеров кода не из документации(там они не раскрывают всех тонкостей) вообще в интернете также мало.
пришлось потратить немало времени.
Сообщение от Tim
Да, трудности возникают.
написание XPath выражения занимает неприлично мало времени по сравнению с регулярками.
высвободившееся время можно с толком потратить на что-то полезное или интересное
Сообщение от subzey
регулярки для разбора html не подходят, только конечный автомат.
эм?
а разве DOM-парсер и регулярные выражения не являются оба конечными автоматами?
первый с набор всегда одинаковым набором состояний и переходов, а второй даже таблицу переходов в явном виде не составляет(полагаю)
кстати к DOM-у еще прилагается XPath, также являющийся конечным автоматом.
Ответить с цитированием
Ответ



Опции темы Искать в теме
Искать в теме:

Расширенный поиск