Javascript-форум (https://javascript.ru/forum/)
-   Ваши сайты и скрипты (https://javascript.ru/forum/project/)
-   -   О, чо написал. (https://javascript.ru/forum/project/12913-o-cho-napisal.html)

B~Vladi 08.11.2010 19:00

О, чо написал.
 
/(?:<!--([\s\S]*?)-->)|(?:<!\[CDATA\[([\s\S]*?)\]\]>)|(?:<(\/)?([\w\-_]+)(?::([\w\-_]+))?((?:[\s]*[\w\-_]+(?::[^=]+)?="[^"]*")*)\s*(\/)?>)/gi


В replace, например, попадут аргументы:
result, isComment, isCDATA, isCloseTag, prefix, name, attributes, isEmptyTag, index

Разбор attributes:
/[\s]*([\w\-_]+)(?::([^=]+))?="([^"]*)"/gi

Аргументы:
result, prefix, name, data, index

:D
Хз, может кому и понадобиться.:write:

tenshi 09.11.2010 01:32

сакс парсер пишешь? х)

B~Vladi 09.11.2010 08:34

Цитата:

Сообщение от tenshi
сакс парсер пишешь? х)

Да не суть :)
Регулярки же у нас во всех языках перловые. Пусть останется на просторах интернета, т.к. я больше нигде не видел такого.

vflash 09.11.2010 13:18

<option selected> ? а такое попадает

B~Vladi 09.11.2010 13:52

Ах, да, забыл написать, что текст должен быть валидным xml. Нет, не попадает. Но при желании поправить можно.

subzey 09.11.2010 15:30

Теперь любой сможет с лёгкостью найти эти бесценные строки в гугле по запросу "о, чо написал" :)

B~Vladi 07.09.2011 18:10

О, ещё чо написал: :write:
Теги:
/(?:<!--([\s\S]*?)-->)|(?:<!\[CDATA\[([\s\S]*?)\]\]>)|(?:<\/\s*([a-z\-_]+)(?::([a-z\-_]+))?\s*>)|(?:<\s*([a-z\-_]+)(?::([a-z\-_]+))?((?:\s*[a-z\-_]+(?::[a-z\-_]+)?\s*(?:=\s*(?:(?:"[^"]*")|(?:'[^']*')))?)*)\s*(\/)?>)/gi

Атрибуты:
/(?:\s*([a-z\-_]+)(?::([a-z\-_]+))?\s*(?:=\s*(?:(?:"([^"]*)")|(?:'[^']*')))?)*/gi

Это для HTML. Корректно отрабатывает, например, такой код:
<nts:as asd asd:as=" ' asd:fake_attr " asd:as = ' " asd:fake_attr ' />


Вообще сказать, везде пишут что парсинг HTML-кода регулярками великое зло, в том числе на stack overflow и хабре. Может потому что не справились?...
Если кто найдет ошибку - дайте знать :)

Kolyaj 07.09.2011 18:24

Цитата:

Сообщение от B~Vladi
Корректно отрабатывает

А что значит отрабатывает?

Цитата:

Сообщение от B~Vladi
Вообще сказать, везде пишут что парсинг HTML-кода регулярками великое зло, в том числе на stack overflow и хабре. Может потому что не справились?...

Наверно потому, что регулярками невозможно проверить правильность вложенности тегов.

B~Vladi 07.09.2011 18:26

Цитата:

Сообщение от Kolyaj
А что значит отрабатывает?

Ой, обрабатывает.
Цитата:

Сообщение от Kolyaj
Наверно потому, что регулярками невозможно проверить правильность вложенности тегов.

Спорим на $100500 что можно? А вообще зачем? В HTML допускаются незакрытые теги br и img например. Хотя и это можно учесть.

Kolyaj 07.09.2011 18:28

Давай начнём с простого, проверка правильности расстановки скобок одного типа.
var str = '()((()())(())()(()))'; // например


Часовой пояс GMT +3, время: 11:48.