Javascript.RU

Создать новую тему Ответ
 
Опции темы Искать в теме
  #61 (permalink)  
Старый 12.03.2010, 13:52
Аватар для Gvozd
Матрос
Отправить личное сообщение для Gvozd Посмотреть профиль Найти все сообщения от Gvozd
 
Регистрация: 04.04.2008
Сообщений: 6,246

Сообщение от B@rmaley.e><e
Страница копируется целиком, без разбора, что контент, а что просто оформление.
вы говорите о тотальном копипасте.
обычно делать полный клон не имеет смысла.хоть и такое делается частенько.

чаще же имеет смысл тырить не сайт, а инфу на нем.
то есть если это сайт с курсами НБУ, то обычно требуется небольшой массив курсовы, или же пара строк в БД.
и для этого приходится копать HTML-код страницы
Сообщение от micscr
Увидел, что у него тырят, поменял разметку в шаблоне и уже временно "не тырят".
для готового парсера незначительные изменения HTML-кода несут лишь незначительные изменения парсера.
в большинстве случае на пять минут работы для автора парсера.
единственно, что обычно такое обслуживание парсера не включается в стоимость заказа, и посему заказчику приходится таки платить за доработку
Ответить с цитированием
  #62 (permalink)  
Старый 12.03.2010, 14:18
Аватар для Gozar
Отправить личное сообщение для Gozar Посмотреть профиль Найти все сообщения от Gozar
 
Регистрация: 07.06.2007
Сообщений: 7,504

Говоря парсер, мы урезаем себя в возможностях. Я бы сказал синтаксический анализатор на основе дерева документа. Хотя возможно на четко определенных проектах четко заточенный парсер работать будет быстрее, но без привязки к определенному проекту синтаксический анализатор даст более правильную картину страницы.
Ответить с цитированием
  #63 (permalink)  
Старый 12.03.2010, 14:20
Аватар для Gozar
Отправить личное сообщение для Gozar Посмотреть профиль Найти все сообщения от Gozar
 
Регистрация: 07.06.2007
Сообщений: 7,504

писать парсер под каждый проект я считаю непозволительной роскошью
Ответить с цитированием
  #64 (permalink)  
Старый 12.03.2010, 14:24
Аватар для Gvozd
Матрос
Отправить личное сообщение для Gvozd Посмотреть профиль Найти все сообщения от Gvozd
 
Регистрация: 04.04.2008
Сообщений: 6,246

Сообщение от Gozar
синтаксический анализатор на основе дерева документа
можете привести пример такого ПО?
платного, бесплатного, десктопных программ, скриптовых, или библиотек?
хотелось бы глянуть на них
Сообщение от Gozar
писать парсер под каждый проект я считаю непозволительной роскошью
ну, если бы я заказывал парсеры у самого себя, я бы наверно разорился бы))))
Ответить с цитированием
  #65 (permalink)  
Старый 12.03.2010, 14:40
Аватар для Gozar
Отправить личное сообщение для Gozar Посмотреть профиль Найти все сообщения от Gozar
 
Регистрация: 07.06.2007
Сообщений: 7,504

Сообщение от Gvozd Посмотреть сообщение
можете привести пример такого ПО?
платного, бесплатного, десктопных программ, скриптовых, или библиотек?
хотелось бы глянуть на них
думаю не один Вы хотели бы на них взглянуть
Ответить с цитированием
  #66 (permalink)  
Старый 12.03.2010, 15:12
Аватар для micscr
Профессор
Отправить личное сообщение для micscr Посмотреть профиль Найти все сообщения от micscr
 
Регистрация: 10.09.2009
Сообщений: 1,577

Сообщение от Gvozd Посмотреть сообщение
На данный момент единственная вещь из попавшихся мне, которую я не смог преодолеть - это была капча гугла.
Это какие-то хакерские методы? Или программированием? А то я что-то не пойму как даже теоретически обходится каптча, когда на клиенте нет данных о верной комбинации(кроме символов на картинке), а данные на сервере и без них требуемая страница не загрузится.
Ответить с цитированием
  #67 (permalink)  
Старый 12.03.2010, 15:29
Аватар для Tim
Tim Tim вне форума
Профессор
Отправить личное сообщение для Tim Посмотреть профиль Найти все сообщения от Tim
 
Регистрация: 05.06.2009
Сообщений: 1,703

Цитата:
не пойму как даже теоретически обходится каптча
Распознавание текста можно применить попробовать
http://www.anti-captcha.com/
__________________
Лучше установить FreeBSD, чем потратить 30 лет на Linux'ы и выяснить какой из них хуже.
Самые главные в жизни вещи - не вещи! (было написано на одном гараже =)
Ответить с цитированием
  #68 (permalink)  
Старый 12.03.2010, 15:32
Аватар для Gvozd
Матрос
Отправить личное сообщение для Gvozd Посмотреть профиль Найти все сообщения от Gvozd
 
Регистрация: 04.04.2008
Сообщений: 6,246

Сообщение от Tim Посмотреть сообщение
Сообщение от micscr Посмотреть сообщение
не пойму как даже теоретически обходится каптча
Распознавание текста можно применить попробовать
http://www.anti-captcha.com/
именно
я не преуспел в сохранении сесии тогда.
о глюке CURL-а с сохранением кукисов я узнал позже
Ответить с цитированием
  #69 (permalink)  
Старый 12.03.2010, 15:45
Аватар для micscr
Профессор
Отправить личное сообщение для micscr Посмотреть профиль Найти все сообщения от micscr
 
Регистрация: 10.09.2009
Сообщений: 1,577

да, век живи, век удивляйся.
Это уже полностью автоматизировано, я так понимаю?
Т.е. зашел бот на сайт, получил капчу, отправил на тот сервис(где он получается зарегистрирован), получил текст и зарегался?
Ответить с цитированием
  #70 (permalink)  
Старый 12.03.2010, 15:49
Аватар для micscr
Профессор
Отправить личное сообщение для micscr Посмотреть профиль Найти все сообщения от micscr
 
Регистрация: 10.09.2009
Сообщений: 1,577

А если эту картинку предварительно разбить на 10 частей и уже на странице собирать, что тогда?
Ответить с цитированием
Ответ



Опции темы Искать в теме
Искать в теме:

Расширенный поиск