Javascript-форум - Правильно ли я составил replace(regexp)? Можно ли упростить?

Javascript-форум (https://javascript.ru/forum/)

- Общие вопросы Javascript (https://javascript.ru/forum/misc/)

- - Правильно ли я составил replace(regexp)? Можно ли упростить? (https://javascript.ru/forum/misc/52931-pravilno-li-ya-sostavil-replace-regexp-mozhno-li-uprostit.html)

Правильно ли я составил replace(regexp)? Можно ли упростить?

// цель: получить строку со словами разделенными одним пробелом без пробелов в начале и конце строки
var reg = str.replace(/[\.\,\;\:\?\!\"\'\(\)\+\-\№\%\#\@\$\[\]\{\}\~\^\&\*\/\\\_\|\<\>]/g, " "); // заменить все символы на пробелы (всё экранировал на всякий случай), исключение [^A-Z] не использовал, т.к. планирую сделать несколько язков помимо русского и английского 
reg = reg.replace(/\s+/g, " "); // все пробелы ужать до одного
reg = reg.replace(/^\s|\s$/g, ""); // обрезать пробелы в начале и в конце строки

Спасибо

Momon,
получить массив слов с помощью match и вашей первой regexp разбить пробелом - всё

рони,
Извините, я не совсем понял как я получу массив слов своим первым regexp и match:

var reg = str.match(/[\.\,\;\:\?\!\"\'\(\)\+\-\№\%\#\@\$\[\]\{\}\~\^\&\*\/\\\_\|\<\>]/g)

Ведь оно же наоборот вернёт массив символов, которые мне не нужны.

Momon,
примерно так ... но Rise, показал более верное решение

var str = "на пробелы (всё        экранировал на всякий случай),          исключение [^A-Z] не использовал, т.к. планирую сделать несколько язков "
var reg = /[^\.\,\;\:\?\!\"\'\(\)\+\-\№\%\#\@\$\[\]\{\}\~\^\&\*\/\\\_\|\<\>\s]+/g;
alert(str.match(reg).join(' '));
alert(/^\s|\s$|\s{2,}/.test(str.match(reg).join(' ')))

а если так: /\b\w\b/g

рони,
Спасибо за помощь, но пробелы между словами всё равно придётся ужимать до одного, а пробелы по концам строки обрезать. В итоге те же три строчки кода.

По поводу метода предложенного Rise, я с ним полностью согласен. Но насколько я понял для позитивного подхода (т.е. для того чтобы вынимать из строки сами слова на разных языках) нужна либо внешняя библиотека, либо писать что то вроде такого монстра:

[^[a-zA-Z\-_ ’'‘ÆÐƎƏƐƔĲŊŒẞÞǷȜæðǝəɛɣĳŋœĸſßþƿȝĄƁÇĐƊĘĦĮƘŁØƠŞȘŢȚŦŲƯY̨Ƴąɓçđɗęħįƙłøơşșţțŧųưy̨ƴÁÀÂÄǍĂĀÃÅǺĄÆǼǢƁĆĊĈČÇĎḌĐƊÐÉÈĖ
ÊËĚĔĒĘẸƎƏƐĠĜǦĞĢƔáàâäǎăāãåǻąæǽǣɓćċĉčçďḍđɗðéèėêëěĕēęẹǝəɛġĝǧğģɣĤḤĦIÍÌİÎÏǏĬĪĨĮỊĲĴĶƘĹĻŁĽĿʼNŃN̈ŇÑŅŊÓÒÔÖǑŎŌÕŐỌØǾƠ
Œĥḥħıíìiîïǐĭīĩįịĳĵķƙĸĺļłľŀŉńn̈ňñņŋóòôöǒŏōõőọøǿơœŔŘŖŚŜŠŞȘṢẞŤŢṬŦÞÚÙÛÜǓŬŪŨŰŮŲỤƯẂẀŴẄǷÝỲŶŸȲỸƳŹŻŽẒŕřŗſśŝšşșṣßťţṭŧþúùûüǔ
ŭūũűůųụưẃẁŵẅƿýỳŷÿȳỹƴźżžẓ]

В моем случае нет строгой необходимости удалять вообще все символы из строки, это всего лишь предосторожность, поэтому я просто указал все символы с клавиатуры, которые пользователь возможно захочет использовать для отделения слов вместо пробелов - запятые, тире, скобочки и т.д.

depp,
\w и \b к сожалению это только латинский алфавит. Но спасибо за помощь!

Цитата:

Сообщение от Momon

но пробелы между словами всё равно придётся ужимать до одного, а пробелы по концам строки обрезать. В итоге те же три строчки кода.

посмотрите ещё раз 5 пост - добавил пробелы и проверку на пробелы

Цитата:

Сообщение от Momon

либо писать что то вроде такого монстра

Для того, чтобы получить символы из других языков, например, с кириллическими, иврита, греческого, армянского, арабского, хирагана и т. д. используйте форму \uXXXX, где «XXXX» — это значение символа Юникода, записанное в шестнадцатеричной форме.

Например по-гречески (используется диапазон 0370 до 03FF):

var κείμενο = "Οι λίγες στιγμές!!!  θα πρέπει να ανοίξετε τον υπολογιστή μπορεί    να φαίνεται αιώνα .";
alert((κείμενο.match(/[\u0370-\u03FF]+/g) || []).join(' '));

Эτοτ regexp найдёт только слова с символами на русском, иврите, греческом и арабском:

/[\u0370-\u03FF\u0400-\u04FF\u0590-\u05FF\u0600-\u06FF]+/g

Цитата:

Сообщение от Momon (Сообщение 351315)

depp,
\w и \b к сожалению это только латинский алфавит. Но спасибо за помощь!

а так: /\b\w\b/gu

depp,
Это вы про ECMAScript 6? По-моему ещё рано: http://kangax.github.io/compat-table/es6/