Javascript-форум (https://javascript.ru/forum/)
-   Оффтопик (https://javascript.ru/forum/offtopic/)
-   -   Ящик Пандоры или тотальный копипаст (https://javascript.ru/forum/offtopic/8129-yashhik-pandory-ili-totalnyjj-kopipast.html)

Gozar 09.03.2010 18:34

Ящик Пандоры или тотальный копипаст
 
8 марта 2010 года информационный шум в моей голове создал мысль не давшую мне покоя по сегодняшний день, т.е. 9 марта 2010 :).

В интернетах, как говорят некоторые мои знакомые, часто сталкиваясь с копипастом я часто задумывался над рядом вопросов:

Что будет если у любого желающего будет возможность скопипастить любой понравившийся ему сайт за считанные минуты, часы?

и

К чему это приведет?

ps: К примеру парсер на js шагающий по дому, а не каша из регекспов php + mysql для текстовой базы.

Ведь защитить сайт подверженный такому пауку практически не возможно, кроме как удалить с домена или пускать на сайт за деньги.

Такое будущее меня несколько опечалило и я решил поделиться своими мыслями с Вами, что думаете?

B@rmaley.e><e 09.03.2010 18:40

А пользователей откуда взять? Особенно в эпоху веб два ноль, когда контент генерируется пользователями. Это раз.

А двас: сайт это не просто набор страничек, а еще и функционал (backend). Последний никаким парсерам (кроме эксплуатирующих уязвимости) украсть не дано.

P.S. Между прочим, этим уже занимается гугль, заботливо складывая сайты в свой кеш :-) И парсер dom'а ему не нужен.

Gozar 09.03.2010 18:46

А что бы Вы сделали будь у Вас возможность с легкостью "сливать" к примеру википедию?

Если такая возможность появиться у многих у кого интернет канал более менее приличный по скорости и безлимитка?

важная деталь: делать это было бы не труднее чем поставить браузер на любую ось.

Gozar 09.03.2010 18:48

Ведь обычные методы защиты, тогоже гугля вроде введите цифирки тут не подойдут, да и бан по ip ничего не даст, ведь можно идти через проксю.

Gozar 09.03.2010 18:58

Скажу проще:

эдакая кнопка в браузере "Сохранить весь сайт в нужной форме на компьютер в виде базы" и браузер этот был бы у всех.

не страшно, от такой перспективы?:-E

Kolyaj 09.03.2010 19:08

Цитата:

Сообщение от Gozar
Сохранить весь сайт в нужной форме на компьютер в виде базы

Что значит "в виде базы"?

Gozar 09.03.2010 19:11

Цитата:

Базой данных является представленная в объективной форме совокупность самостоятельных материалов, систематизированных таким образом, чтобы эти материалы могли быть найдены и обработаны с помощью электронной вычислительной машины
:)

Gozar 09.03.2010 19:14

ну или эта цитата тоже подойдет:
Цитата:

База данных — совокупность взаимосвязанных данных, совместно хранимых в одном или нескольких компьютерных файлах

B@rmaley.e><e 09.03.2010 19:26

А что мешает это сделать уже сейчас?
http://www.softportal.com/software-53-teleport-pro.html
И вообще, не понимаю, чем этот паук-парсер отличается от Файл - сохранить как...

Gozar 09.03.2010 19:34

Цитата:

Сообщение от B@rmaley.e><e (Сообщение 47246)
А что мешает это сделать уже сейчас?
http://www.softportal.com/software-53-teleport-pro.html
И вообще, не понимаю, чем этот паук-парсер отличается от Файл - сохранить как...

А скачайте мне с гугла страниц сто выдачи по определенному запросу вашим телепортом!

Gvozd 09.03.2010 19:44

Цитата:

Сообщение от Gozar
эдакая кнопка в браузере "Сохранить весь сайт в нужной форме на компьютер в виде базы" и браузер этот был бы у всех.

не страшно, от такой перспективы?

меня такая перспектива очень пугает
ведь тогда я останусь достаточно быстро без работы
точнее мне придется искать другую работу.
занимаюсь как раз созданием парсеров-граберов.
и далеко не "каша из регекспов php + mysql для текстовой базы", хотя пишу свои парсеры на PHP
Цитата:

Сообщение от Gozar
А что бы Вы сделали будь у Вас возможность с легкостью "сливать" к примеру википедию?

я это именно это и сделал.
у меня щаз лежит на винтах аккуратненькая копия википедии.
только пока не нашел еще куда пристроить такое сокровище.
ведь википедия в виде единого архива доступна к свободному скачиванию.формат - предназначенный для того чтобы создать свою копию википедии как сайта.
сторонними способами также легко разбирается.

а вообще, вы достаточно долго спали
на данный момент уже всякий желающий может проделать указанные вами маницпляции.
стоимость парсера-граббера на рынке составляет от 20 до 100$ для подавляющего большинства сайтов.
вернее сказать, это моя вилка цен.на рынке она чуточку шире.

PS ищу заказы))))
парсинг-грабинг практически любых ресурсов
имеется опыт обхода различных систем защиты от ботов.

Gozar 09.03.2010 19:56

Цитата:

Сообщение от Gvozd (Сообщение 47249)
имеется опыт обхода различных систем защиты от ботов.

В Вашем случае нужен обхода различных систем от ботов, а я говорю о том, что защиты и вовсе нет.

Ведь будь такая кнопка, невозможно отличить человек пришел или бот, да и можно ведь чередовать, то человек, то бот, где надо человек, а где надо бот :)

Gozar 09.03.2010 19:58

Цитата:

Сообщение от Gvozd (Сообщение 47249)
стоимость парсера-граббера на рынке составляет от 20 до 100$ для подавляющего большинства сайтов.

И парсер остается у заказчика?

А если он с помощью него начнет грабить все подряд и исходники выложит в сеть?

Gvozd 09.03.2010 20:20

Цитата:

Сообщение от Gozar
Ведь будь такая кнопка, невозможно отличить человек пришел или бот, да и можно ведь чередовать, то человек, то бот, где надо человек, а где надо бот

не все так просто
на данный момент, чтобы скрипт умел прикинутся человеком, предварительно надо поработать хорошенько человеку-специалисту
например на моем недавнем заказе, хоть на доноре и не стоит зашита от запросов с одного IP, но для того чтобы сделать запрос, надо вычислить довольно хитрый хеш(вычисляемый в браузере), который мне так и не удалось реализовать средствами PHP(пробелмы с 100%-й эмуляцией charCodeAt)
в любом случае это война, которая еще будет длится не один год.
Цитата:

Сообщение от Gozar
И парсер остается у заказчика?

да
большинство моих заказчиков заказывают именно скрипт, а не готовую базу.
Цитата:

Сообщение от Gozar
А если он с помощью него начнет грабить все подряд и исходники выложит в сеть?

наверно вы не совсем меня поняли
я указал ценовую вилку на создание одного парсера для ОДНОГО ресурса, в ОДИН строго определенный тип БД.
то есть сграбить весь интернет посредством одного скрипта у заказчика не получится
во всяком случае за написание универсального парсера инета, я еще даже не брался.
а если исходники скрипта, либо саму базу выложит в инет, то я не сильно пострадаю.
абсолютно непонимающего человека она не сделает мне конкурентом, и он с помощью скрипта сможет грабить только конкретный ресурс, под который скрипт заточен
шарящий же человек, может быть найдет кое-какие интересные нестандартные решения, которые помогут ему.вероятность что такой человек отобьет конкретно у меня заказ - ничтожна.
вероятность, что у меня будет отбито более одного заказа, из-за этого факта - равна нулю

Gozar 09.03.2010 20:21

Gvozd,
Последний вопрос меня в принципе не особо волнует. Разве что из праздного любопытства.

зы:Хотелось бы еще чье-нибудь мнение услышать.

Gozar 09.03.2010 20:24

Цитата:

Сообщение от Gvozd (Сообщение 47254)
в любом случае это война, которая еще будет длится не один год.

А хотите я её прямо сейчас закончу?

Gozar 09.03.2010 20:26

Шутка :)

А если бы не была шуткой, достоин ли мир этого?

Gvozd 09.03.2010 20:41

защищать сайт от скачивания для копипаста - бессмысленно.
защищать права можно в определенной степени
в частности оповестив поисковики о том, что твой сайт является основным, и является оригиналом информации.
например такое возможно в случае яндекса, насколько я знаю.
поисковики имеют инструменты для того чтобы отличить оригинал от копипаста. Тот же Платон Яндексовский.
С более глубоким же приходом вебтринольных технологий копипаст исчезнет, так как в нем уже не будет того смысла.
ИМХО

в результате человечество получит кучу уникальных знаний по автоматической интелектуальной обработке информации.
так что можно считать копипаст-вынужденной детской болезнью.
Это не противостояние вирусов и антивирусов, где по сути борьба ради борьбы, без конечной глобальной перспективы(лично я ее не вижу).
тут все вполне конечно, ИМХО

Gozar 09.03.2010 20:43

Цитата:

Сообщение от Gvozd (Сообщение 47254)
не все так просто
на данный момент, чтобы скрипт умел прикинутся человеком

Я кстати не говорил о том что скрипту нужно прикидываться человеком, я имел в виду то что имел: бот идет --- защита --- бот стоп сигнал --- человек --- защита пройдена --- бот. (один из вариантов)

А защита в виде вычислений в браузере я уже сказал не защита в данном случае вообще :)

Gozar 09.03.2010 20:53

Хм, а все таки тема эта пока еще актуальна ;)

Kolyaj 09.03.2010 20:56

Цитата:

Сообщение от Gozar
невозможно отличить человек пришел или бот

Сначала нужно определиться, что такое человек, а что такое бот.

Gozar 09.03.2010 21:02

Цитата:

Сообщение от Kolyaj (Сообщение 47264)
Сначала нужно определиться, что такое человек, а что такое бот.

А в чем собственно проблема, не уточните зачем нужно определяться и кому?

мне не надо определяться, я уж точно себя от бота отличить смогу :)

Gozar 09.03.2010 21:04

А вот сайт меня отличить не знаю как сможет, по всей вероятности никак. Ведь иногда буду я, а иногда мой бот ...

И как такое определение: бот это бот, а человек это человек.

Gozar 09.03.2010 21:11

под сайтом я имею в виду сервер.

Gvozd 09.03.2010 21:11

Цитата:

Сообщение от Gozar
бот идет --- защита --- бот стоп сигнал --- человек --- защита пройдена --- бот.

такой вариант испольузется в больинстве профессионального софта.
человеческая помощь привлекается, при необходимости ввода капчи
Цитата:

Сообщение от Kolyaj
Сначала нужно определиться, что такое человек, а что такое бот.

под человеком в первом допущении можно взять то, что проходит тест тьюринга, а бот-то, что не проходит.
увы капча в виде теста тьюринга это просто что-то нереальное)))))

Kolyaj 09.03.2010 21:15

Цитата:

Сообщение от Gozar
А в чем собственно проблема

Ну сайт же должен кого-то от кого-то отличать? Значит ему нужно "рассказать" кто есть кто. Допустим, человек заходит браузером и userscript заходит браузером на сайт. Как отличить, кто из них бот? Или скрипт заходит curl'ом, и человек заходит links'ом. В чем отличие? Как вы будете писать защиту от ботов, если у вас не будет понятия бота.

Возьмём, к примеру, каптчу. В данной модели, если http-клиент не смог распознать символы на картинке, то он бот, смог -- человек. Т.е. попалась вам не читаемая картинка -- вы бот, а смог какой-нибудь хитрый скрипт распознать простую каптчу -- он человек для сайта теперь.

Gozar 09.03.2010 21:19

возьмем к примеру человек заходит браузером на сайт и включает в браузере бот.

Gozar 09.03.2010 21:21

Попавшаяся капча вызывает остановку бота и звуковой сигнал к примеру, в дело вступает человек вводит капчу и после этого пускает бот снова.

Kolyaj 09.03.2010 21:24

Цитата:

Сообщение от Gozar
возьмем к примеру человек заходит браузером на сайт и включает в браузере бот.

Разговор бессмыслен, пока неизвестно, кого считать ботом, а кого человеком. Т.к. в конечном итоге или все боты (т.к. человек ходит браузером, а браузер -- бот), или все человеки (т.к. любым ботом все равно управляет человек, как и браузером).

Любое обсуждаемое понятие нужно сначала формализовать, иначе или все будут правы, или все будут неправы. В то же время, как правило после формализации обсуждать становится нечего.

Kolyaj 09.03.2010 21:25

Цитата:

Сообщение от Gozar
Попавшаяся капча вызывает остановку бота и звуковой сигнал к примеру, в дело вступает человек вводит капчу и после этого пускает бот снова.

Вы придумываете способы обхода каптчи чтоли? Так они давно придуманы.

Gozar 09.03.2010 21:28

Цитата:

Сообщение от Kolyaj (Сообщение 47275)
в конечном итоге или все боты (т.к. человек ходит браузером, а браузер -- бот)

верно.

Правда становиться интересно.?! :)

Gozar 09.03.2010 21:29

А обход капчи я не придумывал.

Kolyaj 09.03.2010 21:31

Цитата:

Сообщение от Gozar
Правда становиться интересно.?!

Нет, неинтересно. Мне кажется, вы не совсем осознаёте масштабы копирования сайтов уже сейчас. И ничего, Простые Пльзователи (тм) ничего не замечают.

Gvozd 09.03.2010 22:24

Цитата:

Сообщение от Kolyaj
Мне кажется, вы не совсем осознаёте масштабы копирования сайтов уже сейчас

ежедневно пишутся десятки уникальных парсеров контента для опредленных сайтов-доноров, и итоговых баз.
создаются сотни проектов, для существующего ряда универсальных автоматических программ(парсер-реге, постер, и все в одном флаконе)
и все это тиражируется в сотни раз с помощью других уже программ.

Gozar 09.03.2010 22:55

Цитата:

Сообщение от Kolyaj (Сообщение 47280)
Мне кажется, вы не совсем осознаёте масштабы копирования сайтов уже сейчас. И ничего, Простые Пльзователи (тм) ничего не замечают.

Когда впервые изобрели колесо и узнали силу огня, ещё много сотен лет люди ездили на повозках запрягая лошадей. Мне кажется мы действительно говорим о разных масштабах, только это вы не совсем осознаёте их.

Gozar 09.03.2010 23:05

Kolyaj,
Если вам эта тема не интересна, то я все таки хотел бы услышать только тех, кому она интересна.

Gvozd 10.03.2010 00:08

Цитата:

Сообщение от Gozar
Мне кажется мы действительно говорим о разных масштабах, только это вы не совсем осознаёте их.

80% рунета-поисковый спам, и прочий мусор
18% рунета-копипаст
2%- нормальные СДЛ
речь идет не о форумах и прочих вебдванольных проектах, а об обычных сайтах
в вебдванольных проектах процент более смещен в сторону уникального контенте.но процент полезных уникальных знаний не сильно отличается
проценты выданы примерно, и я допускаю, что ошибаюсь процентов на 10 в каждом пункте

Gozar 10.03.2010 09:38

Цитата:

Сообщение от Gvozd (Сообщение 47291)
18% рунета-копипаст

Мне кажется что изначальный подход к идее реализации копипаста сайтов был не верен. Именно этим я обуславливаю такой низкий процент копипаста, существующий на сегодняшний день.

Я ни в коем случае не призываю к созданию копирующих систем, просто интересно если бы эта цифра была бы 90% - 98%, к чему бы это привело? Именно этот вопрос меня интересует.

ps:Ну помимо последствий, что Gvozd -у придется искать другую работу :)

Gvozd 10.03.2010 11:50

Цитата:

Сообщение от Gozar
к чему бы это привело?

да ни к чему бы не привело
Цитата:

Сообщение от Gvozd
2%- нормальные СДЛ

этот процент бы не особо изменился бы.
и я не думаю, что ты сильно бы заметило разницу между различными сортами остального дерьма

subzey 10.03.2010 13:06

Цитата:

Сообщение от Gvozd
такой вариант испольузется в больинстве профессионального софта.
человеческая помощь привлекается, при необходимости ввода капчи

Ах, старый-добрый Smile-Seo-Tools! Пожалуй, единственная вещь, которую я могу вспоминать одновременно и с умилением и с отвращением.

А у Вас, Gozar, кажется, паранойя. Ну, сопрут у Вас контент несмотря на «запрещено использовать материалы сайта бла-бла-бла». Ну, допустим, Ваши прямые конкуренты. Лезете на web.archive.org, находите версию, когда у Вас уже был этот текст, а у Ваших конкурентов — нет, и пишете жалостливое письмо или копирастам, или хостеру с указанием ссылок.


Часовой пояс GMT +3, время: 06:27.