Сообщение от 2oo
|
каким образом создается индекс всех тесктов?
|
например с помощью любого DOM-парсера. обходим рекурсивно все узлы, и текстовые(непробельные), разбив на слова, добавляем в индекс.
либо еще к примеру регуляркой по типу
Код:
|
/>\s*([^<>]*\S+[^<>]*)\s*</U |
за точность регулярки не ручаюсь, не проверял.синтаксис взял PHP-шный.
Сообщение от 2oo
|
И возможно ли проиндексировать все слова находящиеся в html, т.е. целиком на сайте?
|
да, возможно. перебираете весь каталог, и составляете общий индекс.
ЗЫ на универсальность,полноту, или правильность, или хоть на какие-то положительные качества для этого решения не претендую.
просто, первое что тпришло в голову.
ЗЫЫ индексацию стоит проводить средствами других языков