Javascript-форум (https://javascript.ru/forum/)
-   Оффтопик (https://javascript.ru/forum/offtopic/)
-   -   Не могу разобраться ! (https://javascript.ru/forum/offtopic/26894-ne-mogu-razobratsya.html)

Kovboy_Marlboro 26.03.2012 20:12

Не могу разобраться !
 
Подскажите пожалуйста как извлечь все ссылки с многостраничного сайта имеющие одинаковое окончание. Например http://javascript.ru/forum/offtopic/26894/flv и http://javascript.ru/forum/offtopic/66574/flv ? Одинаковость по окончанию flv :write:

Tim 26.03.2012 21:10

Вариант 1 (нам повезло и ссылки отличаются только номером):
1. в цикле генерируем ссылку, пытаемся загрузить страницу и смотрим что возвращает сервер.

Вариант 2 (всё плохо):
1. Грузим главную страницу (file_get_contents либо сокеты)
2. Регулярным выражением достаём линки на страницы этого же сайта, при этом не забывая что ссылки могут быть относительные и абсолютные.
3. Грузим найденные страницы и повторяем для них пункт № 2. При этом помечая ссылки по которым уже ходили. Опять же не забываем что они могут быть относительные и абсолютные, чтобы не возникало ситуации когда мы грузим два раза одну и ту же страницу.
4. В итоге настанет момент когда не просмотренных страниц не останется. Тогда уже можно будет отфильтровать массив полученных ссылок.

не пытайтесь запехнуть весть процесс за один раз, php-скрипт гарантированно повесится. Делайте по несколько страниц с сохранением промежуточных результатов в файл. Ещё лучше прикрутить AJAX, чтобы refresh постоянно не жмакать.

Gozar 26.03.2012 21:28

Tim,
Не забыл про ссылки заканчивающиеся на .jpg, .doc, .pdf - парсер упадет на первой же. И реги для этого и php использовать реально отстой. Можно конечно перечислить все расширения всех известных в мире программ, но это точно мрак.

Во первых начнем с того, что ссылки могут генериться из js. Что будем делать в этом случае?

Kovboy_Marlboro 26.03.2012 21:36

Gozar Я так понимаю что эта затея мрак в реализации тем более если ссылки появляются в доступе только после ввода простой каптчи!?

Gozar 26.03.2012 21:40

ps: будешь сливать ютюб запасись парочкой йоттабайтных жестких дисков, если тебя не забанят на пятисотом сливаемым flv. ;)

Цитата:

Сообщение от Kovboy_Marlboro (Сообщение 165083)
Gozar Я так понимаю что эта затея мрак в реализации тем более если ссылки появляются в доступе только после ввода простой каптчи!?

Не обижайся но тебе возможно мозгов не хватит чтобы это сделать. По крайней мере так быстро, как ты хочешь. Я занимался написанием парсера и написал его. Подводных камней гораздо больше чем я озвучил :) Хотя без конкретного примера сайта чуть сложнее говорить. И я не использую php для этого, боже упаси.

В среднем, чтобы не быть голословным парсинг подобный твоему на 150000 файлов занимает 2-3 дня, а выкачка их 40Гбайт неделя и более.

С капчей на 2 часа больше. ;)

Kovboy_Marlboro 26.03.2012 21:45

Gozar А как ты считаешь на сколько сложно создать кликер рекламы гугл очень умный что бы был со стороны! Во взглядах сервера Гугл ?:victory:

Gozar 26.03.2012 21:49

Цитата:

Сообщение от Kovboy_Marlboro (Сообщение 165089)
А как ты считаешь на сколько сложно создать кликер рекламы гугл очень умный что бы был со стороны! Во взглядах сервера Гугл ?:victory:

Я не отвечаю на вопрос, до прихода моего адвоката. :D

В гугл работают хорошие парни, зачем создавать подобный кликер и заведомо портить свои отношения с этой компанией я не знаю? Лично я подобной вещью заниматься не буду. Гугл дал мне второе образование, я уважаю его за это. Извини, но вопрос отклонен.

Kovboy_Marlboro 26.03.2012 21:54

Вложений: 1
Gozar Ну ты прямо как Гугловский шпион себя ведешь. Что тебе смертному переподет от нерушимой мегакорпорации Google за то что ты его любишь? :haha:

Gozar 26.03.2012 22:00

Цитата:

Сообщение от Kovboy_Marlboro (Сообщение 165093)
Gozar Ну ты прямо как Гугловский шпион себя ведешь. Что тебе смертному переподет от нерушимой мегакорпорации Google за то что ты его любишь? :haha:

Знания.
Не веди себя как ребенок. Ты думаешь на форуме нет людей работающих в гугл или яндекс?
Какие ещё шпионы?

Написать можно что угодно и кликер тоже. А смысл? Динамический ip? не напасешься. Прокси? да гугл тебя в раз порвет. Думаешь он прокси не знает. А вот попасть в его блеклист ты можешь с вероятностью 99% и ради чего: 100 баксов получить. Из-за мелочи себе жизнь поганить.

Serg_pnz 26.03.2012 22:01

Вот пришел ковбой и изобрел кнопку "Бабло". Ага!
Хотя... за 10к зеленью и с предоплатой я бы написал такой скрипт. (Читать как "Похерил бы все свои данные из сети прежде, чем взять предоплату")

Gozar 26.03.2012 22:04

Цитата:

Сообщение от Serg_pnz (Сообщение 165096)
10к зеленью и с предоплатой я бы написал такой скрипт.

10 кусков за подсудное дело как соучастник. Интересно сколько стоит твое здоровье и нервы? :)

Serg_pnz 26.03.2012 22:09

Gozar,
не согласен! Я лишь написал мопед, а куда он на нем поехал не мое дело.
При чем скажу больше - была даже попытка написать, но в течении суток пришло письмо, что охота продолжать быстро так отпала. Судом, кстати, не грозили.

Gozar 26.03.2012 22:21

Цитата:

Сообщение от Serg_pnz (Сообщение 165098)
не согласен!

Судом не грозят. В суд вызывают. С чем, кто, согласен никого не волнует. Написание подобного скрипта с заведомо известной целью называется соучастием. Не знание закона не освобождает от ответственности. А если учесть что в Америке финансовые преступления самые страшные, то думаю продолжать объяснение не нужно. Ну и да - судить будут по законам страны в которой находиться нарушитель ;) Но скорее всего просто забанят человека, а деньги вернут рекламодателям.

Я даже за 300 миллионов зелени не вижу смысла это делать.

Gozar 26.03.2012 22:24

Если не было судимостей, то первый срок могут дать условно, года 2-3. Интересно работодатели любят брать на работу людей с уголовными сроками финансового характера? :)

nerv_ 26.03.2012 23:31

Цитата:

Сообщение от Gozar
Ты думаешь на форуме нет людей работающих в гугл или яндекс?

Простите, а кто с гугл?) :D Можно в личку)

Kovboy_Marlboro 27.03.2012 00:27

Serg_pnz Как интересно выглядит вы смеетесь над самой идеей, но за десять тонн зелени готовы написать такой скрипт не странно ли это все выгледит. Либо вы напишите полнейшую ерунду, либо это будет работать. Одни заблуждения!:stop:

Kovboy_Marlboro 27.03.2012 00:28

nerv Вот мне тоже интересно стало пообщаться с ними лично "Гугловцами":victory:

Serg_pnz 27.03.2012 00:30

Kovboy_Marlboro,
вообще-то смысл сводился к запрать предоплату и смыться...
Ладно, не удалась шутка, видимо устал к вечеру.

Kovboy_Marlboro 27.03.2012 00:36

Serg_pnz Ну вот все к тому и сводится забрать деньги и не чего не сотворить. Отрицательный результат тоже результат И вообще вы в курсе что такое "Cистемы активной рекламы" в сокращении САР? Если нет то поинтересуйтесь каким способом там все работает. По вашим убеждениям можно посадить за решетку как заказчиков так и исполнителей !:thanks:

Kovboy_Marlboro 27.03.2012 00:39

Serg_pnz Что скажите?

Gozar 27.03.2012 00:45

Kovboy_Marlboro,
,JL,obpo no}|{aJloBaTb B PeaJlbHuu MuP :)

Kovboy_Marlboro 27.03.2012 00:51

Gozar Наверное это у вас такой яваскрипт коротковат для такой задачи будет !:dance:

Serg_pnz 27.03.2012 02:13

Нет ни сил, ни желания продолжать дискуссию.

Tim 27.03.2012 08:24

Цитата:

Сообщение от Gozar (Сообщение 165080)
И реги для этого и php использовать реально отстой.

Парсинг сам по себе отстой. Так что я не претендую на лучший способ. Как бы вы решили эту задачу? $().load() и навигация по DOM-дереву?

Gozar 27.03.2012 10:54

Цитата:

Сообщение от Tim (Сообщение 165155)
Парсинг сам по себе отстой. Так что я не претендую на лучший способ. Как бы вы решили эту задачу? $().load() и навигация по DOM-дереву?

Есть решение проще, гораздо проще. Если я отвечу, то будет не интересно и скучно. Намек: оно очень старое, но до сих пор отлично работает.

Tim 27.03.2012 17:43

Gozar,
Цитата:

оно очень старое,
и не использующее не одного языка программирования... =)

Kovboy_Marlboro 27.03.2012 18:05

Цитата:

Сообщение от Tim (Сообщение 165213)
Gozar,
и не использующее не одного языка программирования... =)

У меня такое ощучпение что вы тут друг перед другом умников строите. И где гугловцы что то их не слышно ! :)

Gozar 27.03.2012 18:37

Цитата:

Сообщение от Tim (Сообщение 165213)
Gozar,
и не использующее не одного языка программирования... =)

Шутка - это твой ответ?

Цитата:

Сообщение от Kovboy_Marlboro (Сообщение 165222)
где гугловцы что то их не слышно !

Не кипеши, один фиг ничего умного не сказал, так ещё и выразить мысль не можешь. От волнения, восклицательный знак с вопросительным попутал?

Kovboy_Marlboro 27.03.2012 18:51

Gozar А с кем тут можно пообшаться по делу серьезно ? Касательно систем распознования накруток да и вообще всех моментов касающихся идентификации пользователей в интернете ?:)

Kovboy_Marlboro 27.03.2012 18:54

Gozar Хотелось бы будучи делитантом выяснить некоторые моменты сей статьи http://javascript.ru/unsorted/id

:thanks:

Gozar 27.03.2012 20:55

Цитата:

Сообщение от Kovboy_Marlboro (Сообщение 165230)
Gozar А с кем тут можно пообшаться по делу серьезно ? Касательно систем распознования накруток да и вообще всех моментов касающихся идентификации пользователей в интернете ?

А вы уже общаетесь со всеми желающими с вами общаться. :)

Цитата:

Сообщение от Kovboy_Marlboro (Сообщение 165234)
Хотелось бы будучи делитантом выяснить некоторые моменты сей статьи http://javascript.ru/unsorted/id

Там для дилетантов написано, нужно только внимательно прочесть. Я не горю желанием пересказывать статью, словами, возможно более плохо подобранными чем там. Учить людей трудная задача и я предпочитаю просто намекать на ответ иначе так и будут спрашивать пока не пошлешь человека, а мне грубить не охота.

Tim 27.03.2012 21:38

Цитата:

Сообщение от Gozar (Сообщение 165228)
Шутка - это твой ответ?

ок, может быть псевдопротокол javascript: и массив document.links?

Gozar 27.03.2012 22:10

Цитата:

Сообщение от Tim (Сообщение 165276)
ок, может быть псевдопротокол javascript: и массив document.links?

Массив да, а зачем тебе псевдопротокол?

melky 27.03.2012 22:29

Цитата:

Сообщение от Gozar (Сообщение 165279)
Массив да, а зачем тебе псевдопротокол?

вероятно, он имел в виду букмарклет.

Gozar 27.03.2012 23:51

Цитата:

Сообщение от melky (Сообщение 165281)
вероятно, он имел в виду букмарклет.

Я понял что он имел в виду, поэтому и вопрос.

Tim 28.03.2012 20:24

Цитата:

Сообщение от Gozar (Сообщение 165279)
а зачем тебе псевдопротокол?

Если я отвечу, то будет не интересно и скучно.

Gozar 28.03.2012 20:36

Цитата:

Сообщение от Tim (Сообщение 165425)
Если я отвечу, то будет не интересно и скучно.

Копираст?

Tim 28.03.2012 21:22

Gozar,
ну ответ же очевиден. букмарклет бы сделал. если бы я знал простой и эффективный способ сделать это на js то не описывал бы тот алгоритм (мой первый пост в этой теме). что тогда? консоль? не хочешь говорить - не говори. php для парсинга кст не такой уж и отстой. Gvozd, на сколько я знаю, им же пользуется. в php можно осуществлять разбор dom загруженной страницы. в js если не ошибаюсь это не возможно, только на этом же сайте используя javascript:, консоль или user-скрипты.

Gozar 28.03.2012 21:50

Цитата:

Сообщение от Tim (Сообщение 165440)
ну ответ же очевиден ... user-скрипты.

Наиболее логичный и правильный ответ и не нужен никакой парсинг непонятно на чём.

Tim 12.04.2012 07:59

Цитата:

Сообщение от Gozar (Сообщение 165447)
Наиболее логичный и правильный ответ и не нужен никакой парсинг непонятно на чём.

Да, хороший оказывается способ. Недавно опробовал. Не знаю почему раньше не догадался до этого. Большёй "+" в том что выполняется js-код на странице, т.е. всевозможные телефоны и адреса почты скрытые с помощью js - легко доступны. В общем я доволен. Спс за идею. :victory:


Часовой пояс GMT +3, время: 11:53.