Javascript-форум - Индексация xml-сайтов

Javascript-форум (https://javascript.ru/forum/)

- Оффтопик (https://javascript.ru/forum/offtopic/)

- - Индексация xml-сайтов (https://javascript.ru/forum/offtopic/2548-indeksaciya-xml-sajjtov.html)

Индексация xml-сайтов

Пишу тут. ибо другие разделы как-то не совсем подходят. Но хочется услышать мнение нашего форума...
Раньше (пару лет назад) поисковики "боялись" xml - они вобще никак не индексировались. Сейчас вроде дело обстоит хорошо с rss и тп. Но что если сайт полностью на xml? Возможна ли будет норм индексация и как следствие норм рейтинг без сторонних примочек типа подмены страниц?

Просто xml не несет в себе никакой семантики. Поисковая машина не знает для чего служат, созданные вами узлы (что является заголовком, параграфом, цитатой, адресом и т.д.). В лучшем случае станица будет проиндексирована, как простой не форматированный текст. Да и как быть с пользователями IE6, ведь он не понимает application/xml? В случае с RSS или sitemap.xml есть строгий набор правил именования и размещения узлов, поэтому они однозначно воспринимаются поисковыми системами.

А если, например, помещать в стандартные заголовки и тп свои узлы и таким образом убить двух зайцев?

Istamendil,
зачем это все?

Что конкретно зачем?:o
Просто есть идея создания одного проекта-портала. И есть идея использования при этом xml. Но первый вопрос встал про рейтинги поисковиков.

Зачем использовать XML, который понимают далеко не все, когда можно использовать HTML и спать спокойно?

Упрощаются некоторые моменты при разграничении ролей контента, техники и описания. если говорить общими словами. то больше возможностей.

З.ы. Понимают не все - у браузеров хорошая поддержка... главный вопрос в поисковиках.

Цитата:

Сообщение от Istamendil

у браузеров хорошая поддержка

50% процентов используемых браузеров не понимают. Вы о чем?

Istamendil,
Какой xml вы вообще имеете в виду? xslt на браузерной стороне, или xhtml обернутый в xml?

Цитата:

Раньше (пару лет назад) поисковики "боялись" xml - они вобще никак не индексировались.

Это не совсем так.

Цитата:

Но что если сайт полностью на xml? Возможна ли будет норм индексация и как следствие норм рейтинг без сторонних примочек типа подмены страниц?

За год ленивых наблюдений возникло такое предварительное уточнение: ПС не спешат учиться выполнять XSLT и ... различать XML и HTML. Дело в том, что XML не запрещает использовать теги из HTML — к которому приучены искалки. Это к вопросу — что вы хотите писать в XML-документе и ради чего?

Можно совместить удобства HTML для вас (заголовок документа, описание воспринимаются поисковиками) и удобства для искалок (повторяющийся контент — можно оптом или очень избирательно исключать, ссылки лишние попрятать).

Идеи и примеры были показаны давно 31.10.2006 · 24.10.2006 · Content-Type: text/xml — в индексе.

Совсем разжёванная демка в индексе, большинство её страниц — text/xml.

Кратко можно сказать, что ПС скорее смотрят на корневой элемент, а не HTTP-заголовки. А XML не запрещает теги HTML (но валидатор с этим не согласится). Поэтому XSLT на клиенте можно делать так, что искалки видят как бы HTML.

С разными вариантами XML-документов было мало тестов, но Гугль явно большее количество умеет воспринимать как HTML. Примерчик (а вот криво).

Так что можно призвать всех дорвавшихся до произвола.XML ... использовать теги/структуру HTML документа, кроме доктайпа.

Забудьте про валидность, делайте для браузера и поисковики.

Цитата:

Сообщение от ханыга

Забудьте про валидность

Не обязательно, можно сделать и валидно.

ага, то есть если я буду использовать корневой элемент html, но внутри будет собственное xml дерево, но меня-таки проиндексируют?

индексация xml

Цитата:

можно сделать и валидно

Даже интересно было бы увидеть эту шапку (и чтобы во всех браузерах отображалось). А то валидатор подразумевает XHTML

Для браузера хватало well‑formed

Цитата:

если я буду использовать корневой элемент html, но внутри будет собственное xml дерево, но меня-таки проиндексируют?

Пока это было так.
Про будущее сказать могут только представители ПС.

Ситуация странная, конечно же.
Наблюдая за последствиями попыток индексации всякого разного, трудно поверить в то, что ПС смотрят на HTTP-заголовки (но это надо проверять подробнее). Зато Яндекс отказывался индексить, если корень был не <html> (единичные <rss> почти исчезли

).

Ещё одна засада: сейчас вебмастеры начнут делать сайты удобнее для ПС (дублирование прятать, хотя бы), а они вдруг проснутся и научатся разбирать XML и JS ... и сразу найдут кучу того, что им искать вредно.

Т.е. чем позже искалки сделают шаг в будущее, тем вреднее он окажется. Но для ПС он не будет столь же катастрофичным, как для конкретных сайтов, поскольку сайтов с XSLT на клиенте — много не будет.

Но предсказать что-либо трудно.

Цитата:

Сообщение от ханыга (Сообщение 135078)

разбирать XML и JS

гугле разбирает js

Цитата:

Сообщение от Gozar (Сообщение 135081)

гугле разбирает js

Но не любой. О выполнении JS говорить рано, наверное.

Цитата:

Сообщение от ханыга (Сообщение 135078)

Даже интересно было бы увидеть эту шапку (и чтобы во всех браузерах отображалось). А то валидатор подразумевает XHTML

http://validator.w3.org/check?uri=ht...l-dtd.htm;ss=1
http://habrahabr.ru/blogs/xslt/90373/

Автор идеи и давних примеров в теме на хабре оставил на них ссылки, но ... делать их валидными не стал.