Javascript-форум (https://javascript.ru/forum/)
-   Оффтопик (https://javascript.ru/forum/offtopic/)
-   -   Индексация xml-сайтов (https://javascript.ru/forum/offtopic/2548-indeksaciya-xml-sajjtov.html)

Istamendil 14.01.2009 11:13

Индексация xml-сайтов
 
Пишу тут. ибо другие разделы как-то не совсем подходят. Но хочется услышать мнение нашего форума...
Раньше (пару лет назад) поисковики "боялись" xml - они вобще никак не индексировались. Сейчас вроде дело обстоит хорошо с rss и тп. Но что если сайт полностью на xml? Возможна ли будет норм индексация и как следствие норм рейтинг без сторонних примочек типа подмены страниц?

Octane 14.01.2009 14:57

Просто xml не несет в себе никакой семантики. Поисковая машина не знает для чего служат, созданные вами узлы (что является заголовком, параграфом, цитатой, адресом и т.д.). В лучшем случае станица будет проиндексирована, как простой не форматированный текст. Да и как быть с пользователями IE6, ведь он не понимает application/xml? В случае с RSS или sitemap.xml есть строгий набор правил именования и размещения узлов, поэтому они однозначно воспринимаются поисковыми системами.

Istamendil 14.01.2009 14:59

А если, например, помещать в стандартные заголовки и тп свои узлы и таким образом убить двух зайцев?

Kolyaj 14.01.2009 15:13

Istamendil,
зачем это все?

Istamendil 15.01.2009 15:43

Что конкретно зачем?:o
Просто есть идея создания одного проекта-портала. И есть идея использования при этом xml. Но первый вопрос встал про рейтинги поисковиков.

Kolyaj 15.01.2009 16:01

Зачем использовать XML, который понимают далеко не все, когда можно использовать HTML и спать спокойно?

Istamendil 15.01.2009 16:18

Упрощаются некоторые моменты при разграничении ролей контента, техники и описания. если говорить общими словами. то больше возможностей.

З.ы. Понимают не все - у браузеров хорошая поддержка... главный вопрос в поисковиках.

Kolyaj 15.01.2009 16:37

Цитата:

Сообщение от Istamendil
у браузеров хорошая поддержка

50% процентов используемых браузеров не понимают. Вы о чем?

Андрей Параничев 15.01.2009 17:18

Istamendil,
Какой xml вы вообще имеете в виду? xslt на браузерной стороне, или xhtml обернутый в xml?

Istamendil 17.01.2009 21:44

Xslt

ханыга 27.10.2011 21:32

Цитата:

Раньше (пару лет назад) поисковики "боялись" xml - они вобще никак не индексировались.
Это не совсем так.
Цитата:

Но что если сайт полностью на xml? Возможна ли будет норм индексация и как следствие норм рейтинг без сторонних примочек типа подмены страниц?
За год ленивых наблюдений возникло такое предварительное уточнение: ПС не спешат учиться выполнять XSLT и ... различать XML и HTML. Дело в том, что XML не запрещает использовать теги из HTML — к которому приучены искалки. Это к вопросу — что вы хотите писать в XML-документе и ради чего?

Можно совместить удобства HTML для вас (заголовок документа, описание воспринимаются поисковиками) и удобства для искалок (повторяющийся контент — можно оптом или очень избирательно исключать, ссылки лишние попрятать).

Идеи и примеры были показаны давно 31.10.2006 · 24.10.2006 · Content-Type: text/xml — в индексе.

Совсем разжёванная демка в индексе, большинство её страниц — text/xml.

Кратко можно сказать, что ПС скорее смотрят на корневой элемент, а не HTTP-заголовки. А XML не запрещает теги HTML (но валидатор с этим не согласится). Поэтому XSLT на клиенте можно делать так, что искалки видят как бы HTML.

С разными вариантами XML-документов было мало тестов, но Гугль явно большее количество умеет воспринимать как HTML. Примерчиквот криво).

Так что можно призвать всех дорвавшихся до произвола.XML ... использовать теги/структуру HTML документа, кроме доктайпа.

Забудьте про валидность, делайте для браузера и поисковики.

B~Vladi 28.10.2011 09:21

Цитата:

Сообщение от ханыга
Забудьте про валидность

Не обязательно, можно сделать и валидно.

tenshi 29.10.2011 12:52

ага, то есть если я буду использовать корневой элемент html, но внутри будет собственное xml дерево, но меня-таки проиндексируют?

ханыга 07.11.2011 22:14

индексация xml
 
Цитата:

можно сделать и валидно
Даже интересно было бы увидеть эту шапку (и чтобы во всех браузерах отображалось). А то валидатор подразумевает XHTML

Для браузера хватало well‑formed

Цитата:

если я буду использовать корневой элемент html, но внутри будет собственное xml дерево, но меня-таки проиндексируют?
Пока это было так.
Про будущее сказать могут только представители ПС.

Ситуация странная, конечно же.
Наблюдая за последствиями попыток индексации всякого разного, трудно поверить в то, что ПС смотрят на HTTP-заголовки (но это надо проверять подробнее). Зато Яндекс отказывался индексить, если корень был не <html> (единичные <rss> почти исчезли ).

Ещё одна засада: сейчас вебмастеры начнут делать сайты удобнее для ПС (дублирование прятать, хотя бы), а они вдруг проснутся и научатся разбирать XML и JS ... и сразу найдут кучу того, что им искать вредно.

Т.е. чем позже искалки сделают шаг в будущее, тем вреднее он окажется. Но для ПС он не будет столь же катастрофичным, как для конкретных сайтов, поскольку сайтов с XSLT на клиенте — много не будет.

Но предсказать что-либо трудно.

Gozar 07.11.2011 22:24

Цитата:

Сообщение от ханыга (Сообщение 135078)
разбирать XML и JS

гугле разбирает js

ханыга 08.11.2011 11:14

Цитата:

Сообщение от Gozar (Сообщение 135081)
гугле разбирает js

Но не любой. О выполнении JS говорить рано, наверное.

tenshi 09.11.2011 10:39

Цитата:

Сообщение от ханыга (Сообщение 135078)
Даже интересно было бы увидеть эту шапку (и чтобы во всех браузерах отображалось). А то валидатор подразумевает XHTML

http://validator.w3.org/check?uri=ht...l-dtd.htm;ss=1
http://habrahabr.ru/blogs/xslt/90373/

ханыга 09.11.2011 12:35

Автор идеи и давних примеров в теме на хабре оставил на них ссылки, но ... делать их валидными не стал.


Часовой пояс GMT +3, время: 16:21.