Показать сообщение отдельно
  #89 (permalink)  
Старый 13.03.2010, 12:00
Аватар для Gvozd
Матрос
Отправить личное сообщение для Gvozd Посмотреть профиль Найти все сообщения от Gvozd
 
Регистрация: 04.04.2008
Сообщений: 6,246

Сообщение от Gozar
вам нужно точить парсеры сугубо индивидуально для каждого проекта. Уровень абстракции 0.
хорошо
и на каком же языке, можно написать парсер универсальный и сам распознающий контент на странице?
самые лучшие десктопные приложения пока что предлагают составлять проект в wysiwg-редакторе указывая интересующие нас элементы на странице, а он сам уже дальше сграбит со всех страниц указаные элементы.
есть универсальные парсеры для конкретных движков(потому что верстка типизирована), или же который выдирает основной блок контента, находя(в первом упрощении) самый большой текстовый блок не являющийся часть повторяющегося дизайна и других неконтентых элементов.
но универсального парсера, который бы разделял страницу сам на нужные вам текстовые элементы, и давал бы это в виде красивой реляционной базы - нету.ни на каких языках.
и уровня абстракции, когда я указываю основные заголовки для страницы, если они отличаются от стандартных, и набиваю с полдесятка XPath-выражений, мне вполне достаточно.
Сообщение от Gozar
Сколько лет вы разрабатывали свой парсер? Год, два?
а я его почти и не разрабатываю на самом деле.
он у меня находится на уровне минимально необходимом для достаточно ыбстрого создания большинства проектов, и если мне что-то надо сделать дополнительное, обычно реализую не в самом движке, а уже в индивидуальной части проекта
и это не парсер, а движок для удобной разработки многопоточных парсеров.
буквально месяц назад мне пришлось его переписать с нуля по нескольким причинам, одна из которых то, что у меня не совсем хорошо была организована многопоточная скачка
Сообщение от Gozar
Исходя из всего вышесказанного мой вердикт звучит так: технология эта топорная и должна остаться в прошлом.
это исключительно ваше мнение
мои парсеры верой и правдой служат моим заказчикам, и в большинстве своем они полностью довольны моей работой
Сообщение от Gozar
Вообще против php как языка я ничего не имею против, более того я его использую, но по прямому назначению - как серверный язык.

Возможно, я даже буду рад если все будут думать как вы. Это позволит мне без напрягов развиваться дальше.
опять-таки вы вбили себе факт в голову, и свято держитесь за него.
это просто святая вера. и не думаю, что мы получим пользу от холивара на этой почве.
я считаю, что PHP можно использовать для того, для чего его можно использовать.
если он может создавать десктопные клиентские приложения с графическим(не-web) Интерфейсом, то почему-бы и нет.
написание же парсеров на PHP обусловлено тем, что большинству заказчиков предпочтительней именно этот язык разработки парсера.
так исторически сложилось
Ответить с цитированием