Как работает Punycode? Алгоритм!!!
Уже не знаю, где спросить, поэтому попробую здесь, может кто ответит
Купил скрипт конструктор сайтов, но он не поддерживает русские домены. Спецификацию RFC 3492 я почитал, хотя с ангийским довольно недружен, но тем не менее. Класс для создания Idn доменов я нашел, но как работает так и не понял. Объясните пожалуйста. |
Вот нашел класс на javascript
https://github.com/bestiejs/punycode...er/punycode.js Может кто поможет разобраться как он работает |
Разбирая класс http://phlymail.com/en/downloads/idna-convert.html в целом я застрял на конечном автомате, с которым познакомился только сегодня. Т.е. смысл кодировки сводится к тому, чтобы привести символы в их десятиричное представление. Убрать все не ascii символы, спереди добавить xn-- а в конце -. А дальше уже идет алгоритм конечного автомата, который кроется в функции protected function _encode($decoded) и мне не очень понятен.
Соответственно вопрос в том как работает конечный автомат, соответственно, для данного случае интересует больше. Но любой ответ будет в помощь |
С алгоритмом частично разобрался. Подскажите, пожалуйста, а как мне в виде двоичного числа символ отобразить в виде 0101010101 или 0x02?
|
var letter = "s"; // строка с длиной в 1 символ var base = 2; // в какую систему var encoded = letter.charCodeAt().toString(base); alert(encoded); |
Большое спасибо за ответ. Только что-то я не нашел, где описаны данные свойства объекта.
|
Все понял.
|
|
Подскажите, а как-нибудь нулями отсутствующими его заполнить можно для наглядности, а то получается то 101, то 11001, а надо чтобы было 00000101 и 00011001
|
И подскажите, пожалуйста почему
Ни так не получается <script> var R = ("9"); var RR = ~R; var Rs = R + " - " + R.charCodeAt().toString(10) + " - " + R.charCodeAt().toString(2) + " - " + R.charCodeAt().toString(16) + "<br>"; Rs += "~ - " + (RR.charCodeAt().toString(10)) + " - " + (RR.charCodeAt().toString(2)) + " - " + (RR.charCodeAt().toString(16)) + "<br>"; document.write(Rs); </script> ни так не получается <script> var R = ("9"); var Rs = R + " - " + R.charCodeAt().toString(10) + " - " + R.charCodeAt().toString(2) + " - " + R.charCodeAt().toString(16) + "<br>"; Rs += "~ - " + ~(R.charCodeAt().toString(10)) + " - " + ~(R.charCodeAt().toString(2)) + " - " + ~(R.charCodeAt().toString(16)) + "<br>"; document.write(Rs); </script> |
// символы в строке заменятся другими, справа налево var buffer = "00000000000000"; var base = 2; // в какую систему // строка для примера. покажем для неё коды символов var letters = "Учи JS"; var i = 0; while (i < letters.length) { var letter = letters.charAt(i++); // строка с длиной в 1 символ var encoded = letter.charCodeAt().toString(base); var replaced = buffer.slice(0, buffer.length - encoded.length).concat(encoded); alert('Символ "' + letter + '"\nВ двоичной системе: "' + replaced + '"'); } |
Да и вообще не ясно как вообще применить и главное посмотреть результат при применении.
~ >> << >>> Скажем взял я какой-нибудь символ и хочу посмотреть как он выглядит в двоичной системе в 16-ричной и 10-ричной. А потом тоже самое хочу посмотреть со сдвигом, и с отрицанием и тд. |
var a = '101'; var b = '11101'; function replac(a){ var z = '00000000'; var Len=a.split("").length; a=z.substring(0,8-Len)+a; return a; } a=replac(a) alert(a) b=replac(b) alert(b) |
Спасибо за ответ, просто я думал, может там как-то настроить можно это дело, а не вручную выправлять.
Если не сложно то, ответьте пожалуйста, как же мне со смещениями и тд. вывести результат |
Цитата:
|
Я как раз вот это читаю
http://learn.javascript.ru/bitwise-operators Пытаюсь вывести к примеру var R = ("9"); var Rs = R + " - " + R.charCodeAt().toString(10) + " - " + R.charCodeAt().toString(2) + " - " + R.charCodeAt().toString(16) + "<br>"; Rs += "~ - " + ~(R.charCodeAt().toString(10)) + " - " + ~(R.charCodeAt().toString(2)) + " - " + ~(R.charCodeAt().toString(16)) + "<br>"; document.write(Rs); А получаю 9 - 57 - 111001 - 39 ~ - -58 - -111002 - -40 т.е. как минимум 111002 это явно не то, что я хотел увидеть |
Т.е. я так понимаю, или & и | вывести нельзя, а остальные насколько я понял имеют отпределенное значение, только не понял, как их вывести таким способом.
|
platedz,
Я не вник задачу - что у Вас на входе - приведите массив И что должно получицо на выходе - приведите массив |
на входе у меня символ, я хочу получить ее в виде десятичного числа, двоичного и шестнадцатиричного, возьму только двоичный пока т.к. сразу видно из него, что получаю не то
var R = ("9"); alert(R.charCodeAt().toString(2)); Получил 111001 А теперь пытаюсь получить все тот же символ, но с побитовым не ~R Но вместо 000110, как ожидаю получаю 111002. |
http://learn.javascript.ru/bitwise-o...овое-не
Так вот мне нужно в двоичном представлении именно из переменной R1, но, т.е. что-то навроде R2 = ~R1; И оба варианта получить в двоичной форме. Т.е. я так понимаю если var R1 = ("9"); в двоичной форме 111001; то var R2 = ~R1; в двоичной форме мне должно дать 000110; но как не пробовал получить не могу. Т.е. в обоих вариантах на входе переменная R1 c символом А на выходе нужен тот же символ в двоичной форме и в двоичной форме с ~ Примерно как описано по ссылке 9 (по осн. 10) = 00000000000000000000000000001001 (по осн. 2) ~9 (по осн. 10) = 11111111111111111111111111110110 (по осн. 2) |
function replac(a){ var z = '00000000'; var Len=a.split("").length; a=z.substring(0,8-Len)+a; return a; } //============= var R = ("9"); var R1=R.charCodeAt(); var R2=255-R1; alert(replac(R1.toString(2))+'\n'+R2.toString(2)); |
А еще непонятно почему
alert(0050); выводит мне 40 |
Спасибо, только вот оператора
~ нету в Вашем коде. Я как бы спрашивал, для того, чтобы получить именно результат его работа, и увидеть наглядно, а также других побитовых операторов. |
platedz,
Ощущение что дурь всё это - на PHP трансформация UTF в кирилицу одной строкой |
Перекодировка скриптом:
http://stackoverflow.com/questions/2...avascript?rq=1 |
Про дурь, и то что Вы хотели показать, мне по ссылке я не очень понял.
А как-то вывести результат из двоичной системы можно. Т.е. чтобы на входя был 01010101 а на выходе уже символ |
platedz,
По ссылке преобразование из UTF в windows-1251 про дурь же: На PHP это преобразование можно выполнить одной строкой Или я не вкурил проблему ? |
Цитата:
|
Нет я не преобразовываю из одной кодировки в другую, я просто, так сказать изучаю работу побитовых операторов и хочу увидеть визуально, вывести результат.
|
Так я и не понял, как мне с помощью fromCharCode вывести символ передав его в двоичном виде, и в шестрадцатеричном тоже. В десятичном понятно, все работает нормально.
И почему 0050 это ), т.е. я так понял что 0050 возвращает 40, тк. 40 это кавычка в utf-8, а что это за 0050, в какой кодировке |
function replac(a){ var z = '00000000'; var Len=a.split("").length; a=z.substring(0,8-Len)+a; return a; } //============= var R = ("9"); var R1=R.charCodeAt(); var R2=255-R1; alert(replac(R1.toString(2))+'\n'+replac(R2.toString(2))+'\n\n'+R1.toString(16)+'\n'+R2.toString(16)); |
Ваш пример довольно наглядный, но к сожалению в нем не выполняется бинарный оператор, что для меня более важно.
И я не понял для чего это var R = ("9"); var R1=R.charCodeAt(); var R2=255-R1; alert(replac(R1.toString(2))+'\n'+replac(R2.toString(2))+'\n\n'+R1.toString(16)+'\n'+R2.toString(16)); Я сделал так <style> .a01 td {border-left: 1px solid black; text-align: right;} .a01 tr {border-top: 1px solid black;} </style> <script> Punycode = function() { Er = false; function nul32 (m,n) { var nu = ""; for(var i=0; i<n; i++) nu += "0"; return ((m.indexOf("-") != -1)? "-":"")+(nu.slice(0,((m.indexOf("-") != -1)?n+1:n)-m.length).concat((m.indexOf("-") != -1)?m.substring(1):m)); } function litBig(R,s) { var R1 = R.charCodeAt(); var R2 = (R1 << 1); var R3 = (R1 >> 1); var R4 = ~(R1); var Rs = "<tr style='border-top: 1px solid black;'><td>" + R + "</td><td>" + nul32(R1.toString(10),4) + "</td><td>" + nul32(R1.toString(2),32) + "</td><td>" + nul32(R1.toString(16),4) + "</td><td>" + String.fromCharCode(R1.toString(10)) + "</td></tr>"; Rs += "<tr><td>" + "~" + "</td><td>" + nul32(R4.toString(10),4) + "</td><td>" + nul32(R4.toString(2),32) + "</td><td>" + nul32(R4.toString(16),4) + "</td><td>" + String.fromCharCode(R4.toString(10)) + "</td></tr>"; Rs += "<tr><td>" + "<< 1" + "</td><td>" + nul32(R2.toString(10),4) + "</td><td>" + nul32(R2.toString(2),32) + "</td><td>" + nul32(R2.toString(16),4) + "</td><td>" + String.fromCharCode(R2.toString(10)) + "</td></tr>"; Rs += "<tr><td>" + ">> 1" + "</td><td>" + nul32(R3.toString(10),4) + "</td><td>" + nul32(R3.toString(2),32) + "</td><td>" + nul32(R3.toString(16),4) + "</td><td>" + String.fromCharCode(R3.toString(10)) + "</td></tr>"; return Rs; } return { inp: function (d) { var m = "<table class='a01'>"; for(var i=0; i<d.length; i++) { m += litBig(d[i]) + ""; } m += "</table>"; if(Er) { document.getElementById("PunycodeError").innerHtml = ""; } document.getElementById("Punycode").innerHTML = m; }, } }(); </script> <div id="PunycodeError"></div> <input onKeyUp="Punycode.inp(this.value);"> <div id="Punycode"></div> Единственное, что мне не очень понятно, почему при " ~ " возвращает на 1 больше? Т.е. если R1 возвращает 0057, то R4 -0058 |
platedz,
" ~ " работает с 32 разрядными числами, а Вам нужно байтовое представление поэтому тупо var R2=255-R.charCodeAt(); чтобы преобразовать в двоичный или 16 R2.toString(2); R2.toString(16); для дополнения нулями в двоичном представлении - итог в двоичном суём в функцию => replac(a) |
Так а это что?
var R2=255-R1 А самое главное что за c6, которое оно выдает? |
Цитата:
255 в двоичном - это все единички - из всех единичек вычитаем установленные 11111111 - 00111001 __________ 11000110 Цитата:
|
Так насколько я понимаю, при ~ идет отрицание при 32 битном представлении.
Т.е. 9 = 00000000000000000000000000001001 ~9 = 11111111111111111111111111110110 а в Вашем случае видимо получается 9 = 00000000000000000000000000111001 ~9 = 00000000000000000000000011000110 При этом любой символ с ~ в принципе не существует, т.к. отрицательных кодов символов нет. |
Большое спасибо за ответ, в общем и целом для меня осталось неясно
Почему alert(0050) выводит мне 40 и что это за 0050? Почему при " ~ " возвращает на 1 больше? Т.е. если R1 возвращает 0057, то R4 -0058 |
Числа начинаюшиеся с нулей - по умолчанию считаются восьмеричными и
alert все трансформирует на выходе в десятичный код alert(0050) alert(parseInt(0050,10)); alert(0100); |
Если входная строка начинается с "0х", то radix = 16
Если входная строка начинается с "0", то radix = 8. Этот пункт зависит от реализации и в некоторых браузерах (Google Chrome) отсутствует. В любом другом случае radix=10 alert(50) alert(050); alert(0x050); alert(0100); |
Спасибо, вроде во всем разобрался, с ~ осталось как-то неясно
|
Часовой пояс GMT +3, время: 07:45. |