|
Не могу разобраться !
Подскажите пожалуйста как извлечь все ссылки с многостраничного сайта имеющие одинаковое окончание. Например http://javascript.ru/forum/offtopic/26894/flv и http://javascript.ru/forum/offtopic/66574/flv ? Одинаковость по окончанию flv :write:
|
Вариант 1 (нам повезло и ссылки отличаются только номером):
1. в цикле генерируем ссылку, пытаемся загрузить страницу и смотрим что возвращает сервер. Вариант 2 (всё плохо): 1. Грузим главную страницу (file_get_contents либо сокеты) 2. Регулярным выражением достаём линки на страницы этого же сайта, при этом не забывая что ссылки могут быть относительные и абсолютные. 3. Грузим найденные страницы и повторяем для них пункт № 2. При этом помечая ссылки по которым уже ходили. Опять же не забываем что они могут быть относительные и абсолютные, чтобы не возникало ситуации когда мы грузим два раза одну и ту же страницу. 4. В итоге настанет момент когда не просмотренных страниц не останется. Тогда уже можно будет отфильтровать массив полученных ссылок. не пытайтесь запехнуть весть процесс за один раз, php-скрипт гарантированно повесится. Делайте по несколько страниц с сохранением промежуточных результатов в файл. Ещё лучше прикрутить AJAX, чтобы refresh постоянно не жмакать. |
Tim,
Не забыл про ссылки заканчивающиеся на .jpg, .doc, .pdf - парсер упадет на первой же. И реги для этого и php использовать реально отстой. Можно конечно перечислить все расширения всех известных в мире программ, но это точно мрак. Во первых начнем с того, что ссылки могут генериться из js. Что будем делать в этом случае? |
Gozar Я так понимаю что эта затея мрак в реализации тем более если ссылки появляются в доступе только после ввода простой каптчи!?
|
ps: будешь сливать ютюб запасись парочкой йоттабайтных жестких дисков, если тебя не забанят на пятисотом сливаемым flv. ;)
Цитата:
В среднем, чтобы не быть голословным парсинг подобный твоему на 150000 файлов занимает 2-3 дня, а выкачка их 40Гбайт неделя и более. С капчей на 2 часа больше. ;) |
Gozar А как ты считаешь на сколько сложно создать кликер рекламы гугл очень умный что бы был со стороны! Во взглядах сервера Гугл ?:victory:
|
Цитата:
В гугл работают хорошие парни, зачем создавать подобный кликер и заведомо портить свои отношения с этой компанией я не знаю? Лично я подобной вещью заниматься не буду. Гугл дал мне второе образование, я уважаю его за это. Извини, но вопрос отклонен. |
Вложений: 1
Gozar Ну ты прямо как Гугловский шпион себя ведешь. Что тебе смертному переподет от нерушимой мегакорпорации Google за то что ты его любишь? :haha:
|
Цитата:
Не веди себя как ребенок. Ты думаешь на форуме нет людей работающих в гугл или яндекс? Какие ещё шпионы? Написать можно что угодно и кликер тоже. А смысл? Динамический ip? не напасешься. Прокси? да гугл тебя в раз порвет. Думаешь он прокси не знает. А вот попасть в его блеклист ты можешь с вероятностью 99% и ради чего: 100 баксов получить. Из-за мелочи себе жизнь поганить. |
Вот пришел ковбой и изобрел кнопку "Бабло". Ага!
Хотя... за 10к зеленью и с предоплатой я бы написал такой скрипт. (Читать как "Похерил бы все свои данные из сети прежде, чем взять предоплату") |
Часовой пояс GMT +3, время: 16:20. |
|