|
Помогите укртотить монстра (сократить регулярку)
Всем привет.
Есть задача, вырезать со строки определенные словосочетания, только в том случае, если рядом с ними нет букв. Сделал такой вот прегреплейс: ^((ТОВ)|(ООО)|(ДП)|(НПКП)|(ЗАО)|(ОАО)|(ЧП)|(СПД)|(ЧП)|(ФОП)|(ФЛП)|(ФЛ)|(НПП)|(МП)|(фирма)|(компания)|(частное предприятие)|(предприятие)|(ч\/п)|(OOO)|(интернет\-магазин)|(интернет)|(магазин)|(TM)|(ТМ))[^a-zа-яіґїєё]|[^a-zа-яіґїєё]((ТОВ)|(ООО)|(ДП)|(НПКП)|(ЗАО)|(ОАО)|(ЧП)|(СПД)|(ЧП)|(ФОП)|(ФЛП)|(ФЛ)|(НПП)|(МП)|(фирма)|(компания)|(частное предприятие)|(предприятие)|(ч\/п)|(OOO)|(интернет\-магазин)|(интернет)|(магазин)|(TM)|(ТМ))[^a-zа-яіґїєё]|[^a-zа-яіґїєё]((ТОВ)|(ООО)|(ДП)|(НПКП)|(ЗАО)|(ОАО)|(ЧП)|(СПД)|(ЧП)|(ФОП)|(ФЛП)|(ФЛ)|(НПП)|(МП)|(фирма)|(компания)|(частное предприятие)|(предприятие)|(ч\/п)|(OOO)|(интернет\-магазин)|(интернет)|(магазин)|(TM)|(ТМ))$ Глаз режет, аж до боли. Как это все дело можно было бы написать красивее? Ну и в случае добавления условий, его приходится добавлять сразу в трех местах, что тоже не совсем хорошо. т.е. Товарищ Иванов А.А. должен остаться без изменений, а ТОВ Иванов А.А. должен стать просто Ивановым. |
Цитата:
|
В моем случае они написаны по 3 раза. Я думал, что можно это написать как-то элегантнее
|
tazododu,
1. лучше составить массив регеспов, иначе не добавить не отнять Перебор массива - в точности тож что и палка конкатенации, но занчительно читабельнее и взаимозаменяемо |
Цитата:
т.е. простенький какой-то) |
Цитата:
или слова нужно соответствующие найти в строке,если да -так нужно искать от начала слова до конца слова,а не от начала строки до её конца, или хотябы учитывать правильную последовательность разделителей между словами |
Цитата:
ООО "Труляля" Чпонин А.А -> "Труляля" Чпонин А.А ЧП Онин А.А -> Онин А.А |
Цитата:
<p id="ThisSTROKA">.НПКП "Кузнецкий Мост" производит лучшие в мире частные предприятия ,ООО "Вася" и ч/п "Коля".</p> <script type="text/javascript"> var CensorArray=[ "ТОВ","ООО","ДП","НПКП","ЗАО","ОАО", "ЧП","СПД","ЧП","ФОП","ФЛП","ФЛ", "НПП","МП","фирма","компания", "частное предприятие","предприятие", "ч\\/п","OOO","интернет\-магазин", "интернет","магазин","TM", " ===== | CENSORED | ===== "] var arrLength = CensorArray.length-1; var str = document.getElementById('ThisSTROKA').innerHTML; var str2=str; for(var i=0; i < arrLength; i++ ){//alert("A") str2 = str2.replace(eval('/[\\s\.,]'+CensorArray[i]+'[\\s\.,]/gm'),CensorArray[arrLength]) } if(str!=str2){document.getElementById('ThisSTROKA').innerHTML=str2} </script> Экранирование в массиве нужно делать двойное "ч\\/п", |
C помощью какого метод вы хотите использовать эту регулярку: с помощью exec или другого метода?
Зачем вам так много захватывающих скобок? Вместо (ТОВ)|(ООО)|(ДП)|(НПКП)|... можно было писать ТОВ|ООО|ДП|НПКП|... Я не думаю, что вам понадобятся эти результаты совпадений. |
Я не знаю, подходит ли это вам:
/\b(?:ТОВ|ООО|ДП|НПКП|ЗАО|ОАО|ЧП|СПД|ЧП|ФОП|ФЛП|ФЛ|НПП|МП|фирма|компания|частное предприятие|предприятие|ч\/п|OOO|интернет\-магазин|интернет|магазин|TM)\b/g \b обозначает границу слова. |
Часовой пояс GMT +3, время: 06:51. |
|