Javascript-форум - Индексация xml-сайтов

Javascript-форум (https://javascript.ru/forum/)

- Оффтопик (https://javascript.ru/forum/offtopic/)

- - Индексация xml-сайтов (https://javascript.ru/forum/offtopic/2548-indeksaciya-xml-sajjtov.html)

Цитата:

Раньше (пару лет назад) поисковики "боялись" xml - они вобще никак не индексировались.

Это не совсем так.

Цитата:

Но что если сайт полностью на xml? Возможна ли будет норм индексация и как следствие норм рейтинг без сторонних примочек типа подмены страниц?

За год ленивых наблюдений возникло такое предварительное уточнение: ПС не спешат учиться выполнять XSLT и ... различать XML и HTML. Дело в том, что XML не запрещает использовать теги из HTML — к которому приучены искалки. Это к вопросу — что вы хотите писать в XML-документе и ради чего?

Можно совместить удобства HTML для вас (заголовок документа, описание воспринимаются поисковиками) и удобства для искалок (повторяющийся контент — можно оптом или очень избирательно исключать, ссылки лишние попрятать).

Идеи и примеры были показаны давно 31.10.2006 · 24.10.2006 · Content-Type: text/xml — в индексе.

Совсем разжёванная демка в индексе, большинство её страниц — text/xml.

Кратко можно сказать, что ПС скорее смотрят на корневой элемент, а не HTTP-заголовки. А XML не запрещает теги HTML (но валидатор с этим не согласится). Поэтому XSLT на клиенте можно делать так, что искалки видят как бы HTML.

С разными вариантами XML-документов было мало тестов, но Гугль явно большее количество умеет воспринимать как HTML. Примерчик (а вот криво).

Так что можно призвать всех дорвавшихся до произвола.XML ... использовать теги/структуру HTML документа, кроме доктайпа.

Забудьте про валидность, делайте для браузера и поисковики.

Цитата:

Сообщение от ханыга

Забудьте про валидность

Не обязательно, можно сделать и валидно.

ага, то есть если я буду использовать корневой элемент html, но внутри будет собственное xml дерево, но меня-таки проиндексируют?

индексация xml

Цитата:

можно сделать и валидно

Даже интересно было бы увидеть эту шапку (и чтобы во всех браузерах отображалось). А то валидатор подразумевает XHTML

Для браузера хватало well‑formed

Цитата:

если я буду использовать корневой элемент html, но внутри будет собственное xml дерево, но меня-таки проиндексируют?

Пока это было так.
Про будущее сказать могут только представители ПС.

Ситуация странная, конечно же.
Наблюдая за последствиями попыток индексации всякого разного, трудно поверить в то, что ПС смотрят на HTTP-заголовки (но это надо проверять подробнее). Зато Яндекс отказывался индексить, если корень был не <html> (единичные <rss> почти исчезли

).

Ещё одна засада: сейчас вебмастеры начнут делать сайты удобнее для ПС (дублирование прятать, хотя бы), а они вдруг проснутся и научатся разбирать XML и JS ... и сразу найдут кучу того, что им искать вредно.

Т.е. чем позже искалки сделают шаг в будущее, тем вреднее он окажется. Но для ПС он не будет столь же катастрофичным, как для конкретных сайтов, поскольку сайтов с XSLT на клиенте — много не будет.

Но предсказать что-либо трудно.

Цитата:

Сообщение от ханыга (Сообщение 135078)

разбирать XML и JS

гугле разбирает js

Цитата:

Сообщение от Gozar (Сообщение 135081)

гугле разбирает js

Но не любой. О выполнении JS говорить рано, наверное.

Цитата:

Сообщение от ханыга (Сообщение 135078)

Даже интересно было бы увидеть эту шапку (и чтобы во всех браузерах отображалось). А то валидатор подразумевает XHTML

http://validator.w3.org/check?uri=ht...l-dtd.htm;ss=1
http://habrahabr.ru/blogs/xslt/90373/

Автор идеи и давних примеров в теме на хабре оставил на них ссылки, но ... делать их валидными не стал.