Не могу разобраться !
Подскажите пожалуйста как извлечь все ссылки с многостраничного сайта имеющие одинаковое окончание. Например http://javascript.ru/forum/offtopic/26894/flv и http://javascript.ru/forum/offtopic/66574/flv ? Одинаковость по окончанию flv :write:
|
Вариант 1 (нам повезло и ссылки отличаются только номером):
1. в цикле генерируем ссылку, пытаемся загрузить страницу и смотрим что возвращает сервер. Вариант 2 (всё плохо): 1. Грузим главную страницу (file_get_contents либо сокеты) 2. Регулярным выражением достаём линки на страницы этого же сайта, при этом не забывая что ссылки могут быть относительные и абсолютные. 3. Грузим найденные страницы и повторяем для них пункт № 2. При этом помечая ссылки по которым уже ходили. Опять же не забываем что они могут быть относительные и абсолютные, чтобы не возникало ситуации когда мы грузим два раза одну и ту же страницу. 4. В итоге настанет момент когда не просмотренных страниц не останется. Тогда уже можно будет отфильтровать массив полученных ссылок. не пытайтесь запехнуть весть процесс за один раз, php-скрипт гарантированно повесится. Делайте по несколько страниц с сохранением промежуточных результатов в файл. Ещё лучше прикрутить AJAX, чтобы refresh постоянно не жмакать. |
Tim,
Не забыл про ссылки заканчивающиеся на .jpg, .doc, .pdf - парсер упадет на первой же. И реги для этого и php использовать реально отстой. Можно конечно перечислить все расширения всех известных в мире программ, но это точно мрак. Во первых начнем с того, что ссылки могут генериться из js. Что будем делать в этом случае? |
Gozar Я так понимаю что эта затея мрак в реализации тем более если ссылки появляются в доступе только после ввода простой каптчи!?
|
ps: будешь сливать ютюб запасись парочкой йоттабайтных жестких дисков, если тебя не забанят на пятисотом сливаемым flv. ;)
Цитата:
В среднем, чтобы не быть голословным парсинг подобный твоему на 150000 файлов занимает 2-3 дня, а выкачка их 40Гбайт неделя и более. С капчей на 2 часа больше. ;) |
Gozar А как ты считаешь на сколько сложно создать кликер рекламы гугл очень умный что бы был со стороны! Во взглядах сервера Гугл ?:victory:
|
Цитата:
В гугл работают хорошие парни, зачем создавать подобный кликер и заведомо портить свои отношения с этой компанией я не знаю? Лично я подобной вещью заниматься не буду. Гугл дал мне второе образование, я уважаю его за это. Извини, но вопрос отклонен. |
Вложений: 1
Gozar Ну ты прямо как Гугловский шпион себя ведешь. Что тебе смертному переподет от нерушимой мегакорпорации Google за то что ты его любишь? :haha:
|
Цитата:
Не веди себя как ребенок. Ты думаешь на форуме нет людей работающих в гугл или яндекс? Какие ещё шпионы? Написать можно что угодно и кликер тоже. А смысл? Динамический ip? не напасешься. Прокси? да гугл тебя в раз порвет. Думаешь он прокси не знает. А вот попасть в его блеклист ты можешь с вероятностью 99% и ради чего: 100 баксов получить. Из-за мелочи себе жизнь поганить. |
Вот пришел ковбой и изобрел кнопку "Бабло". Ага!
Хотя... за 10к зеленью и с предоплатой я бы написал такой скрипт. (Читать как "Похерил бы все свои данные из сети прежде, чем взять предоплату") |
Цитата:
|
Gozar,
не согласен! Я лишь написал мопед, а куда он на нем поехал не мое дело. При чем скажу больше - была даже попытка написать, но в течении суток пришло письмо, что охота продолжать быстро так отпала. Судом, кстати, не грозили. |
Цитата:
Я даже за 300 миллионов зелени не вижу смысла это делать. |
Если не было судимостей, то первый срок могут дать условно, года 2-3. Интересно работодатели любят брать на работу людей с уголовными сроками финансового характера? :)
|
Цитата:
|
Serg_pnz Как интересно выглядит вы смеетесь над самой идеей, но за десять тонн зелени готовы написать такой скрипт не странно ли это все выгледит. Либо вы напишите полнейшую ерунду, либо это будет работать. Одни заблуждения!:stop:
|
nerv Вот мне тоже интересно стало пообщаться с ними лично "Гугловцами":victory:
|
Kovboy_Marlboro,
вообще-то смысл сводился к запрать предоплату и смыться... Ладно, не удалась шутка, видимо устал к вечеру. |
Serg_pnz Ну вот все к тому и сводится забрать деньги и не чего не сотворить. Отрицательный результат тоже результат И вообще вы в курсе что такое "Cистемы активной рекламы" в сокращении САР? Если нет то поинтересуйтесь каким способом там все работает. По вашим убеждениям можно посадить за решетку как заказчиков так и исполнителей !:thanks:
|
Serg_pnz Что скажите?
|
Kovboy_Marlboro,
,JL,obpo no}|{aJloBaTb B PeaJlbHuu MuP :) |
Gozar Наверное это у вас такой яваскрипт коротковат для такой задачи будет !:dance:
|
Нет ни сил, ни желания продолжать дискуссию.
|
Цитата:
|
Цитата:
|
Gozar,
Цитата:
|
Цитата:
|
Цитата:
Цитата:
|
Gozar А с кем тут можно пообшаться по делу серьезно ? Касательно систем распознования накруток да и вообще всех моментов касающихся идентификации пользователей в интернете ?:)
|
Gozar Хотелось бы будучи делитантом выяснить некоторые моменты сей статьи http://javascript.ru/unsorted/id
:thanks: |
Цитата:
Цитата:
|
Цитата:
|
Цитата:
|
Цитата:
|
Цитата:
|
Цитата:
|
Цитата:
|
Gozar,
ну ответ же очевиден. букмарклет бы сделал. если бы я знал простой и эффективный способ сделать это на js то не описывал бы тот алгоритм (мой первый пост в этой теме). что тогда? консоль? не хочешь говорить - не говори. php для парсинга кст не такой уж и отстой. Gvozd, на сколько я знаю, им же пользуется. в php можно осуществлять разбор dom загруженной страницы. в js если не ошибаюсь это не возможно, только на этом же сайте используя javascript:, консоль или user-скрипты. |
Цитата:
|
Цитата:
|
Часовой пояс GMT +3, время: 11:53. |