Ящик Пандоры или тотальный копипаст
8 марта 2010 года информационный шум в моей голове создал мысль не давшую мне покоя по сегодняшний день, т.е. 9 марта 2010 :).
В интернетах, как говорят некоторые мои знакомые, часто сталкиваясь с копипастом я часто задумывался над рядом вопросов: Что будет если у любого желающего будет возможность скопипастить любой понравившийся ему сайт за считанные минуты, часы? и К чему это приведет? ps: К примеру парсер на js шагающий по дому, а не каша из регекспов php + mysql для текстовой базы. Ведь защитить сайт подверженный такому пауку практически не возможно, кроме как удалить с домена или пускать на сайт за деньги. Такое будущее меня несколько опечалило и я решил поделиться своими мыслями с Вами, что думаете? |
А пользователей откуда взять? Особенно в эпоху веб два ноль, когда контент генерируется пользователями. Это раз.
А двас: сайт это не просто набор страничек, а еще и функционал (backend). Последний никаким парсерам (кроме эксплуатирующих уязвимости) украсть не дано. P.S. Между прочим, этим уже занимается гугль, заботливо складывая сайты в свой кеш :-) И парсер dom'а ему не нужен. |
А что бы Вы сделали будь у Вас возможность с легкостью "сливать" к примеру википедию?
Если такая возможность появиться у многих у кого интернет канал более менее приличный по скорости и безлимитка? важная деталь: делать это было бы не труднее чем поставить браузер на любую ось. |
Ведь обычные методы защиты, тогоже гугля вроде введите цифирки тут не подойдут, да и бан по ip ничего не даст, ведь можно идти через проксю.
|
Скажу проще:
эдакая кнопка в браузере "Сохранить весь сайт в нужной форме на компьютер в виде базы" и браузер этот был бы у всех. не страшно, от такой перспективы?:-E |
Цитата:
|
Цитата:
|
ну или эта цитата тоже подойдет:
Цитата:
|
А что мешает это сделать уже сейчас?
http://www.softportal.com/software-53-teleport-pro.html И вообще, не понимаю, чем этот паук-парсер отличается от Файл - сохранить как... |
Цитата:
|
Цитата:
ведь тогда я останусь достаточно быстро без работы точнее мне придется искать другую работу. занимаюсь как раз созданием парсеров-граберов. и далеко не "каша из регекспов php + mysql для текстовой базы", хотя пишу свои парсеры на PHP Цитата:
у меня щаз лежит на винтах аккуратненькая копия википедии. только пока не нашел еще куда пристроить такое сокровище. ведь википедия в виде единого архива доступна к свободному скачиванию.формат - предназначенный для того чтобы создать свою копию википедии как сайта. сторонними способами также легко разбирается. а вообще, вы достаточно долго спали на данный момент уже всякий желающий может проделать указанные вами маницпляции. стоимость парсера-граббера на рынке составляет от 20 до 100$ для подавляющего большинства сайтов. вернее сказать, это моя вилка цен.на рынке она чуточку шире. PS ищу заказы)))) парсинг-грабинг практически любых ресурсов имеется опыт обхода различных систем защиты от ботов. |
Цитата:
Ведь будь такая кнопка, невозможно отличить человек пришел или бот, да и можно ведь чередовать, то человек, то бот, где надо человек, а где надо бот :) |
Цитата:
А если он с помощью него начнет грабить все подряд и исходники выложит в сеть? |
Цитата:
на данный момент, чтобы скрипт умел прикинутся человеком, предварительно надо поработать хорошенько человеку-специалисту например на моем недавнем заказе, хоть на доноре и не стоит зашита от запросов с одного IP, но для того чтобы сделать запрос, надо вычислить довольно хитрый хеш(вычисляемый в браузере), который мне так и не удалось реализовать средствами PHP(пробелмы с 100%-й эмуляцией charCodeAt) в любом случае это война, которая еще будет длится не один год. Цитата:
большинство моих заказчиков заказывают именно скрипт, а не готовую базу. Цитата:
я указал ценовую вилку на создание одного парсера для ОДНОГО ресурса, в ОДИН строго определенный тип БД. то есть сграбить весь интернет посредством одного скрипта у заказчика не получится во всяком случае за написание универсального парсера инета, я еще даже не брался. а если исходники скрипта, либо саму базу выложит в инет, то я не сильно пострадаю. абсолютно непонимающего человека она не сделает мне конкурентом, и он с помощью скрипта сможет грабить только конкретный ресурс, под который скрипт заточен шарящий же человек, может быть найдет кое-какие интересные нестандартные решения, которые помогут ему.вероятность что такой человек отобьет конкретно у меня заказ - ничтожна. вероятность, что у меня будет отбито более одного заказа, из-за этого факта - равна нулю |
Gvozd,
Последний вопрос меня в принципе не особо волнует. Разве что из праздного любопытства. зы:Хотелось бы еще чье-нибудь мнение услышать. |
Цитата:
|
Шутка :)
А если бы не была шуткой, достоин ли мир этого? |
защищать сайт от скачивания для копипаста - бессмысленно.
защищать права можно в определенной степени в частности оповестив поисковики о том, что твой сайт является основным, и является оригиналом информации. например такое возможно в случае яндекса, насколько я знаю. поисковики имеют инструменты для того чтобы отличить оригинал от копипаста. Тот же Платон Яндексовский. С более глубоким же приходом вебтринольных технологий копипаст исчезнет, так как в нем уже не будет того смысла. ИМХО в результате человечество получит кучу уникальных знаний по автоматической интелектуальной обработке информации. так что можно считать копипаст-вынужденной детской болезнью. Это не противостояние вирусов и антивирусов, где по сути борьба ради борьбы, без конечной глобальной перспективы(лично я ее не вижу). тут все вполне конечно, ИМХО |
Цитата:
А защита в виде вычислений в браузере я уже сказал не защита в данном случае вообще :) |
Хм, а все таки тема эта пока еще актуальна ;)
|
Цитата:
|
Цитата:
мне не надо определяться, я уж точно себя от бота отличить смогу :) |
А вот сайт меня отличить не знаю как сможет, по всей вероятности никак. Ведь иногда буду я, а иногда мой бот ...
И как такое определение: бот это бот, а человек это человек. |
под сайтом я имею в виду сервер.
|
Цитата:
человеческая помощь привлекается, при необходимости ввода капчи Цитата:
увы капча в виде теста тьюринга это просто что-то нереальное))))) |
Цитата:
Возьмём, к примеру, каптчу. В данной модели, если http-клиент не смог распознать символы на картинке, то он бот, смог -- человек. Т.е. попалась вам не читаемая картинка -- вы бот, а смог какой-нибудь хитрый скрипт распознать простую каптчу -- он человек для сайта теперь. |
возьмем к примеру человек заходит браузером на сайт и включает в браузере бот.
|
Попавшаяся капча вызывает остановку бота и звуковой сигнал к примеру, в дело вступает человек вводит капчу и после этого пускает бот снова.
|
Цитата:
Любое обсуждаемое понятие нужно сначала формализовать, иначе или все будут правы, или все будут неправы. В то же время, как правило после формализации обсуждать становится нечего. |
Цитата:
|
Цитата:
Правда становиться интересно.?! :) |
А обход капчи я не придумывал.
|
Цитата:
|
Цитата:
создаются сотни проектов, для существующего ряда универсальных автоматических программ(парсер-реге, постер, и все в одном флаконе) и все это тиражируется в сотни раз с помощью других уже программ. |
Цитата:
|
Kolyaj,
Если вам эта тема не интересна, то я все таки хотел бы услышать только тех, кому она интересна. |
Цитата:
18% рунета-копипаст 2%- нормальные СДЛ речь идет не о форумах и прочих вебдванольных проектах, а об обычных сайтах в вебдванольных проектах процент более смещен в сторону уникального контенте.но процент полезных уникальных знаний не сильно отличается проценты выданы примерно, и я допускаю, что ошибаюсь процентов на 10 в каждом пункте |
Цитата:
Я ни в коем случае не призываю к созданию копирующих систем, просто интересно если бы эта цифра была бы 90% - 98%, к чему бы это привело? Именно этот вопрос меня интересует. ps:Ну помимо последствий, что Gvozd -у придется искать другую работу :) |
Цитата:
Цитата:
и я не думаю, что ты сильно бы заметило разницу между различными сортами остального дерьма |
Цитата:
А у Вас, Gozar, кажется, паранойя. Ну, сопрут у Вас контент несмотря на «запрещено использовать материалы сайта бла-бла-бла». Ну, допустим, Ваши прямые конкуренты. Лезете на web.archive.org, находите версию, когда у Вас уже был этот текст, а у Ваших конкурентов — нет, и пишете жалостливое письмо или копирастам, или хостеру с указанием ссылок. |
Часовой пояс GMT +3, время: 06:27. |