Javascript-форум (https://javascript.ru/forum/)
-   Оффтопик (https://javascript.ru/forum/offtopic/)
-   -   Ящик Пандоры или тотальный копипаст (https://javascript.ru/forum/offtopic/8129-yashhik-pandory-ili-totalnyjj-kopipast.html)

Gvozd 12.03.2010 13:52

Цитата:

Сообщение от B@rmaley.e><e
Страница копируется целиком, без разбора, что контент, а что просто оформление.

вы говорите о тотальном копипасте.
обычно делать полный клон не имеет смысла.хоть и такое делается частенько.

чаще же имеет смысл тырить не сайт, а инфу на нем.
то есть если это сайт с курсами НБУ, то обычно требуется небольшой массив курсовы, или же пара строк в БД.
и для этого приходится копать HTML-код страницы
Цитата:

Сообщение от micscr
Увидел, что у него тырят, поменял разметку в шаблоне и уже временно "не тырят".

для готового парсера незначительные изменения HTML-кода несут лишь незначительные изменения парсера.
в большинстве случае на пять минут работы для автора парсера.
единственно, что обычно такое обслуживание парсера не включается в стоимость заказа, и посему заказчику приходится таки платить за доработку

Gozar 12.03.2010 14:18

Говоря парсер, мы урезаем себя в возможностях. Я бы сказал синтаксический анализатор на основе дерева документа. Хотя возможно на четко определенных проектах четко заточенный парсер работать будет быстрее, но без привязки к определенному проекту синтаксический анализатор даст более правильную картину страницы.

Gozar 12.03.2010 14:20

писать парсер под каждый проект я считаю непозволительной роскошью :)

Gvozd 12.03.2010 14:24

Цитата:

Сообщение от Gozar
синтаксический анализатор на основе дерева документа

можете привести пример такого ПО?
платного, бесплатного, десктопных программ, скриптовых, или библиотек?
хотелось бы глянуть на них
Цитата:

Сообщение от Gozar
писать парсер под каждый проект я считаю непозволительной роскошью

ну, если бы я заказывал парсеры у самого себя, я бы наверно разорился бы))))

Gozar 12.03.2010 14:40

Цитата:

Сообщение от Gvozd (Сообщение 47508)
можете привести пример такого ПО?
платного, бесплатного, десктопных программ, скриптовых, или библиотек?
хотелось бы глянуть на них

думаю не один Вы хотели бы на них взглянуть ;)

micscr 12.03.2010 15:12

Цитата:

Сообщение от Gvozd (Сообщение 47469)
На данный момент единственная вещь из попавшихся мне, которую я не смог преодолеть - это была капча гугла.

Это какие-то хакерские методы? Или программированием? А то я что-то не пойму как даже теоретически обходится каптча, когда на клиенте нет данных о верной комбинации(кроме символов на картинке), а данные на сервере и без них требуемая страница не загрузится.

Tim 12.03.2010 15:29

Цитата:

не пойму как даже теоретически обходится каптча
Распознавание текста можно применить попробовать
http://www.anti-captcha.com/

Gvozd 12.03.2010 15:32

Цитата:

Сообщение от Tim (Сообщение 47513)
Цитата:

Сообщение от micscr (Сообщение 47512)
не пойму как даже теоретически обходится каптча

Распознавание текста можно применить попробовать
http://www.anti-captcha.com/

именно
я не преуспел в сохранении сесии тогда.
о глюке CURL-а с сохранением кукисов я узнал позже

micscr 12.03.2010 15:45

да, век живи, век удивляйся.
Это уже полностью автоматизировано, я так понимаю?
Т.е. зашел бот на сайт, получил капчу, отправил на тот сервис(где он получается зарегистрирован), получил текст и зарегался?

micscr 12.03.2010 15:49

А если эту картинку предварительно разбить на 10 частей и уже на странице собирать, что тогда?


Часовой пояс GMT +3, время: 03:51.