Цитата:
|
Эх мля ! Как говорится давно не брал карт в руки... До утра сидел ффтыкал на странный ответ сервера, который вроде как html, но на самом деле бинарный, причём ни на что знакомое не похожий. И только под утро Соколиный Глаз заметил, что у сарая стены нет :lol: Иными словами что ответ сжат методом brotli. В заголовке у меня было Accept-Encoding: gzip, deflate, br. Убрал оттуда br и ответ стал в лучшем виде приходить как чистый html. А там все нужные прокси. Если кому-то надо получать на халяву прокси с сервиса hidemy.name, отпишитесь сюда. Выложу скрипт. Правда на питоне, но на node.js при желании думаю перетащит каждый. Просто не моя технология, потому сорри. Ещё умею получать на халяву прокси с proxyrotator.com. Но hidemy.name лучше. Там можно задавать множество параметров поиска. Да и кода получается существенно меньше. Вобщем кто заинтересован, пишите, всё выложу.
|
На прошлой неделе на php писал скрипт, который с какого-то забугорного сайта 4.5к прокси тащил и сортировал по уровню анонимности.
|
Сколько у меня в К не скажу, я работаю в jupyter notebook, там с этим сложно. Для hidemy.name у меня получилось 80 строк на питоне, для proxyrotator.com 154. Вобщем полезная приблудина. Мне нужно парсить здоровенный сайт, на котором ограничение 2 потока с одного ip-адреса. По моим подсчетам, если по-тупому, времени займёт около недели. А проксей можно включить сколько угодно. Так что думаю справляться часов за 5-6.
|
eugenk,
Nexus, Выкладывайте оба, если не жалко ;) Чего-чего, а проксей всегда мало :D |
diablopc, У Вас jupyter есть ? Если нет, поставьте пакет Anaconda. Я буду выкладывать в виде ноутбуков для jupyter. По-моему гораздо более удобный формат чем обычный исходник. Распаковываете архив, входите в каталог с файлами и запускаете в консоли jupyter notebook. В броузере открывается окно в котором отображено содержимое каталога. кликаете по нужному файлу с расширением ipynb и он открывается в новом окне броузера. Сейчас выложу для proxyrotator.com. Для hidemy.name надо немного допилить напильником, я его сделал только сегодня.
|
Вложений: 1
Выкладываю решение для proxyrotator.com.
У Вас должен быть установлен jupyter и библиотека BeautifulSoup. Всё остальное всегда есть в любом питоньем дистре. Самый лучший питон (во всяком случае мой любимый) - Anaconda. Там всё есть искароппки :) Распаковываете архив. Заходите в каталог с распакованными файлами. В консоли вводите jupyter notebook. В открывшемся окне браузера кликаете по файлу proxyrotator.ipynb. Внимание ! Главная функция проекта - getProxyList. Мне нужно сканировать сайт избиркома. Поэтому в ней задан соответствующий проверочный URL и алгоритм проверки содержимого странички. Вы для использования должны заменить его на URL сайта, с которым хотите работать и прописать соответствующий алгоритм проверки содержимого странички. Решение для hidemy.name выложу позже. Оно появилось только сегодня. И похоже этот сервис предпочтительнее. Хотя подробно пока не проверял. Я только-только получил с него рабочий html. |
Хотел выложить решение для hidemy.name, однако почему-то файл не прицепился. Поэтому кому тема интересна, добро пожаловать на гитхаб https://github.com/Karabass-Barabass/FreeProxy
|
Часовой пояс GMT +3, время: 05:29. |