Javascript.RU

Создать новую тему Ответ
 
Опции темы Искать в теме
  #1 (permalink)  
Старый 26.03.2012, 20:12
Аватар для Kovboy_Marlboro
Интересующийся
Отправить личное сообщение для Kovboy_Marlboro Посмотреть профиль Найти все сообщения от Kovboy_Marlboro
 
Регистрация: 03.11.2011
Сообщений: 27

Не могу разобраться !
Подскажите пожалуйста как извлечь все ссылки с многостраничного сайта имеющие одинаковое окончание. Например http://javascript.ru/forum/offtopic/26894/flv и http://javascript.ru/forum/offtopic/66574/flv ? Одинаковость по окончанию flv

Последний раз редактировалось Kovboy_Marlboro, 26.03.2012 в 20:33. Причина: 1
Ответить с цитированием
  #2 (permalink)  
Старый 26.03.2012, 21:10
Аватар для Tim
Tim Tim вне форума
Профессор
Отправить личное сообщение для Tim Посмотреть профиль Найти все сообщения от Tim
 
Регистрация: 05.06.2009
Сообщений: 1,703

Вариант 1 (нам повезло и ссылки отличаются только номером):
1. в цикле генерируем ссылку, пытаемся загрузить страницу и смотрим что возвращает сервер.

Вариант 2 (всё плохо):
1. Грузим главную страницу (file_get_contents либо сокеты)
2. Регулярным выражением достаём линки на страницы этого же сайта, при этом не забывая что ссылки могут быть относительные и абсолютные.
3. Грузим найденные страницы и повторяем для них пункт № 2. При этом помечая ссылки по которым уже ходили. Опять же не забываем что они могут быть относительные и абсолютные, чтобы не возникало ситуации когда мы грузим два раза одну и ту же страницу.
4. В итоге настанет момент когда не просмотренных страниц не останется. Тогда уже можно будет отфильтровать массив полученных ссылок.

не пытайтесь запехнуть весть процесс за один раз, php-скрипт гарантированно повесится. Делайте по несколько страниц с сохранением промежуточных результатов в файл. Ещё лучше прикрутить AJAX, чтобы refresh постоянно не жмакать.
__________________
Лучше установить FreeBSD, чем потратить 30 лет на Linux'ы и выяснить какой из них хуже.
Самые главные в жизни вещи - не вещи! (было написано на одном гараже =)

Последний раз редактировалось Tim, 26.03.2012 в 21:14.
Ответить с цитированием
  #3 (permalink)  
Старый 26.03.2012, 21:28
Аватар для Gozar
Отправить личное сообщение для Gozar Посмотреть профиль Найти все сообщения от Gozar
 
Регистрация: 07.06.2007
Сообщений: 7,504

Tim,
Не забыл про ссылки заканчивающиеся на .jpg, .doc, .pdf - парсер упадет на первой же. И реги для этого и php использовать реально отстой. Можно конечно перечислить все расширения всех известных в мире программ, но это точно мрак.

Во первых начнем с того, что ссылки могут генериться из js. Что будем делать в этом случае?
__________________
Последний раз редактировалось Gozar, Сегодня в 24:14.
Ответить с цитированием
  #4 (permalink)  
Старый 26.03.2012, 21:36
Аватар для Kovboy_Marlboro
Интересующийся
Отправить личное сообщение для Kovboy_Marlboro Посмотреть профиль Найти все сообщения от Kovboy_Marlboro
 
Регистрация: 03.11.2011
Сообщений: 27

Gozar Я так понимаю что эта затея мрак в реализации тем более если ссылки появляются в доступе только после ввода простой каптчи!?

Последний раз редактировалось Kovboy_Marlboro, 26.03.2012 в 21:38.
Ответить с цитированием
  #5 (permalink)  
Старый 26.03.2012, 21:40
Аватар для Gozar
Отправить личное сообщение для Gozar Посмотреть профиль Найти все сообщения от Gozar
 
Регистрация: 07.06.2007
Сообщений: 7,504

ps: будешь сливать ютюб запасись парочкой йоттабайтных жестких дисков, если тебя не забанят на пятисотом сливаемым flv.

Сообщение от Kovboy_Marlboro Посмотреть сообщение
Gozar Я так понимаю что эта затея мрак в реализации тем более если ссылки появляются в доступе только после ввода простой каптчи!?
Не обижайся но тебе возможно мозгов не хватит чтобы это сделать. По крайней мере так быстро, как ты хочешь. Я занимался написанием парсера и написал его. Подводных камней гораздо больше чем я озвучил Хотя без конкретного примера сайта чуть сложнее говорить. И я не использую php для этого, боже упаси.

В среднем, чтобы не быть голословным парсинг подобный твоему на 150000 файлов занимает 2-3 дня, а выкачка их 40Гбайт неделя и более.

С капчей на 2 часа больше.
__________________
Последний раз редактировалось Gozar, Сегодня в 24:14.

Последний раз редактировалось Gozar, 26.03.2012 в 21:45.
Ответить с цитированием
  #6 (permalink)  
Старый 26.03.2012, 21:45
Аватар для Kovboy_Marlboro
Интересующийся
Отправить личное сообщение для Kovboy_Marlboro Посмотреть профиль Найти все сообщения от Kovboy_Marlboro
 
Регистрация: 03.11.2011
Сообщений: 27

Gozar А как ты считаешь на сколько сложно создать кликер рекламы гугл очень умный что бы был со стороны! Во взглядах сервера Гугл ?
Ответить с цитированием
  #7 (permalink)  
Старый 26.03.2012, 21:49
Аватар для Gozar
Отправить личное сообщение для Gozar Посмотреть профиль Найти все сообщения от Gozar
 
Регистрация: 07.06.2007
Сообщений: 7,504

Сообщение от Kovboy_Marlboro Посмотреть сообщение
А как ты считаешь на сколько сложно создать кликер рекламы гугл очень умный что бы был со стороны! Во взглядах сервера Гугл ?
Я не отвечаю на вопрос, до прихода моего адвоката.

В гугл работают хорошие парни, зачем создавать подобный кликер и заведомо портить свои отношения с этой компанией я не знаю? Лично я подобной вещью заниматься не буду. Гугл дал мне второе образование, я уважаю его за это. Извини, но вопрос отклонен.
__________________
Последний раз редактировалось Gozar, Сегодня в 24:14.
Ответить с цитированием
  #8 (permalink)  
Старый 26.03.2012, 21:54
Аватар для Kovboy_Marlboro
Интересующийся
Отправить личное сообщение для Kovboy_Marlboro Посмотреть профиль Найти все сообщения от Kovboy_Marlboro
 
Регистрация: 03.11.2011
Сообщений: 27

Gozar Ну ты прямо как Гугловский шпион себя ведешь. Что тебе смертному переподет от нерушимой мегакорпорации Google за то что ты его любишь?
Изображения:
Тип файла: jpg evil-google.jpg (11.2 Кб, 4 просмотров)
Ответить с цитированием
  #9 (permalink)  
Старый 26.03.2012, 22:00
Аватар для Gozar
Отправить личное сообщение для Gozar Посмотреть профиль Найти все сообщения от Gozar
 
Регистрация: 07.06.2007
Сообщений: 7,504

Сообщение от Kovboy_Marlboro Посмотреть сообщение
Gozar Ну ты прямо как Гугловский шпион себя ведешь. Что тебе смертному переподет от нерушимой мегакорпорации Google за то что ты его любишь?
Знания.
Не веди себя как ребенок. Ты думаешь на форуме нет людей работающих в гугл или яндекс?
Какие ещё шпионы?

Написать можно что угодно и кликер тоже. А смысл? Динамический ip? не напасешься. Прокси? да гугл тебя в раз порвет. Думаешь он прокси не знает. А вот попасть в его блеклист ты можешь с вероятностью 99% и ради чего: 100 баксов получить. Из-за мелочи себе жизнь поганить.
__________________
Последний раз редактировалось Gozar, Сегодня в 24:14.
Ответить с цитированием
  #10 (permalink)  
Старый 26.03.2012, 22:01
Аватар для Serg_pnz
Сам по себе
Отправить личное сообщение для Serg_pnz Посмотреть профиль Найти все сообщения от Serg_pnz
 
Регистрация: 09.06.2009
Сообщений: 963

Вот пришел ковбой и изобрел кнопку "Бабло". Ага!
Хотя... за 10к зеленью и с предоплатой я бы написал такой скрипт. (Читать как "Похерил бы все свои данные из сети прежде, чем взять предоплату")
Ответить с цитированием
Ответ



Опции темы Искать в теме
Искать в теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Не могу разобраться с setTimeout bazilio2010 Общие вопросы Javascript 3 14.01.2012 00:17
Не могу разобраться с url в $.ajax ShoN jQuery 3 16.12.2010 10:55
One Click Upload не могу разобраться a.graphics jQuery 0 06.09.2010 13:16
не могу разобраться с массивом ! jenyokCoder Общие вопросы Javascript 2 29.03.2010 00:46
Не могу разобраться с туториалом mr.codec jQuery 0 23.03.2009 21:27