Javascript-форум (https://javascript.ru/forum/)
-   Оффтопик (https://javascript.ru/forum/offtopic/)
-   -   Не могу разобраться ! (https://javascript.ru/forum/offtopic/26894-ne-mogu-razobratsya.html)

Kovboy_Marlboro 26.03.2012 20:12

Не могу разобраться !
 
Подскажите пожалуйста как извлечь все ссылки с многостраничного сайта имеющие одинаковое окончание. Например http://javascript.ru/forum/offtopic/26894/flv и http://javascript.ru/forum/offtopic/66574/flv ? Одинаковость по окончанию flv :write:

Tim 26.03.2012 21:10

Вариант 1 (нам повезло и ссылки отличаются только номером):
1. в цикле генерируем ссылку, пытаемся загрузить страницу и смотрим что возвращает сервер.

Вариант 2 (всё плохо):
1. Грузим главную страницу (file_get_contents либо сокеты)
2. Регулярным выражением достаём линки на страницы этого же сайта, при этом не забывая что ссылки могут быть относительные и абсолютные.
3. Грузим найденные страницы и повторяем для них пункт № 2. При этом помечая ссылки по которым уже ходили. Опять же не забываем что они могут быть относительные и абсолютные, чтобы не возникало ситуации когда мы грузим два раза одну и ту же страницу.
4. В итоге настанет момент когда не просмотренных страниц не останется. Тогда уже можно будет отфильтровать массив полученных ссылок.

не пытайтесь запехнуть весть процесс за один раз, php-скрипт гарантированно повесится. Делайте по несколько страниц с сохранением промежуточных результатов в файл. Ещё лучше прикрутить AJAX, чтобы refresh постоянно не жмакать.

Gozar 26.03.2012 21:28

Tim,
Не забыл про ссылки заканчивающиеся на .jpg, .doc, .pdf - парсер упадет на первой же. И реги для этого и php использовать реально отстой. Можно конечно перечислить все расширения всех известных в мире программ, но это точно мрак.

Во первых начнем с того, что ссылки могут генериться из js. Что будем делать в этом случае?

Kovboy_Marlboro 26.03.2012 21:36

Gozar Я так понимаю что эта затея мрак в реализации тем более если ссылки появляются в доступе только после ввода простой каптчи!?

Gozar 26.03.2012 21:40

ps: будешь сливать ютюб запасись парочкой йоттабайтных жестких дисков, если тебя не забанят на пятисотом сливаемым flv. ;)

Цитата:

Сообщение от Kovboy_Marlboro (Сообщение 165083)
Gozar Я так понимаю что эта затея мрак в реализации тем более если ссылки появляются в доступе только после ввода простой каптчи!?

Не обижайся но тебе возможно мозгов не хватит чтобы это сделать. По крайней мере так быстро, как ты хочешь. Я занимался написанием парсера и написал его. Подводных камней гораздо больше чем я озвучил :) Хотя без конкретного примера сайта чуть сложнее говорить. И я не использую php для этого, боже упаси.

В среднем, чтобы не быть голословным парсинг подобный твоему на 150000 файлов занимает 2-3 дня, а выкачка их 40Гбайт неделя и более.

С капчей на 2 часа больше. ;)

Kovboy_Marlboro 26.03.2012 21:45

Gozar А как ты считаешь на сколько сложно создать кликер рекламы гугл очень умный что бы был со стороны! Во взглядах сервера Гугл ?:victory:

Gozar 26.03.2012 21:49

Цитата:

Сообщение от Kovboy_Marlboro (Сообщение 165089)
А как ты считаешь на сколько сложно создать кликер рекламы гугл очень умный что бы был со стороны! Во взглядах сервера Гугл ?:victory:

Я не отвечаю на вопрос, до прихода моего адвоката. :D

В гугл работают хорошие парни, зачем создавать подобный кликер и заведомо портить свои отношения с этой компанией я не знаю? Лично я подобной вещью заниматься не буду. Гугл дал мне второе образование, я уважаю его за это. Извини, но вопрос отклонен.

Kovboy_Marlboro 26.03.2012 21:54

Вложений: 1
Gozar Ну ты прямо как Гугловский шпион себя ведешь. Что тебе смертному переподет от нерушимой мегакорпорации Google за то что ты его любишь? :haha:

Gozar 26.03.2012 22:00

Цитата:

Сообщение от Kovboy_Marlboro (Сообщение 165093)
Gozar Ну ты прямо как Гугловский шпион себя ведешь. Что тебе смертному переподет от нерушимой мегакорпорации Google за то что ты его любишь? :haha:

Знания.
Не веди себя как ребенок. Ты думаешь на форуме нет людей работающих в гугл или яндекс?
Какие ещё шпионы?

Написать можно что угодно и кликер тоже. А смысл? Динамический ip? не напасешься. Прокси? да гугл тебя в раз порвет. Думаешь он прокси не знает. А вот попасть в его блеклист ты можешь с вероятностью 99% и ради чего: 100 баксов получить. Из-за мелочи себе жизнь поганить.

Serg_pnz 26.03.2012 22:01

Вот пришел ковбой и изобрел кнопку "Бабло". Ага!
Хотя... за 10к зеленью и с предоплатой я бы написал такой скрипт. (Читать как "Похерил бы все свои данные из сети прежде, чем взять предоплату")


Часовой пояс GMT +3, время: 16:20.