Показать сообщение отдельно
  #15 (permalink)  
Старый 31.10.2008, 19:01
Аватар для Gvozd
Матрос
Отправить личное сообщение для Gvozd Посмотреть профиль Найти все сообщения от Gvozd
 
Регистрация: 04.04.2008
Сообщений: 6,246

Сообщение от 2oo
каким образом создается индекс всех тесктов?
например с помощью любого DOM-парсера. обходим рекурсивно все узлы, и текстовые(непробельные), разбив на слова, добавляем в индекс.
либо еще к примеру регуляркой по типу
Код:
/>\s*([^<>]*\S+[^<>]*)\s*</U
за точность регулярки не ручаюсь, не проверял.синтаксис взял PHP-шный.
Сообщение от 2oo
И возможно ли проиндексировать все слова находящиеся в html, т.е. целиком на сайте?
да, возможно. перебираете весь каталог, и составляете общий индекс.
ЗЫ на универсальность,полноту, или правильность, или хоть на какие-то положительные качества для этого решения не претендую.
просто, первое что тпришло в голову.
ЗЫЫ индексацию стоит проводить средствами других языков
Ответить с цитированием