位置：首頁 > 計算機 > php語言

談談php中的unicode和utf8編碼

php語言2.12W

本文給大家深入討論了unicode和utf8這兩種編碼的關係，理解好了會發現網上一些舊的東西，是嚴重多餘兼過期的，因為從utf-8流行開始到現在，早已經由原來六字節可變編碼到實際完全居於unicode(UCS-2)的穩定階段。

　　重新認識unicode和utf8編碼

直到今天，準確的説是剛才，我才知道UTF-8編碼和Unicode編碼是不一樣的，是有區別的囧

他們之間是有一定的聯繫的，看看他們的區別：

UTF-8的長度是不一定的，有可能是1、2、3字節

Unicode長度一定，2個字節（USC-2）

UTF-8可以和Unicode互相轉換

unicode和utf8的關係

Unicode(16進制)

UTF-8(二進制)

0000 - 007F 0xxxxxxx

0080 - 07FF 110xxxxx 10xxxxxx

0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

上面的表格有2個意思，第一個顯而易見就是説Unicode和UTF-8字符範圍的對應，還有一個可以看出Unicode怎麼和UTF-8互相轉換：

先説UTF-8到Unicode的轉換

UTF-8編碼的二進制和上面的3種格式進行匹配，匹配到之後去掉固定位（表格中的非x位置），然後從右到左每8位一組，不夠8位左邊不領，湊夠2個字節16 bits，這16 bits所表示的就是UTF-8對應的Unicode編碼，看看下面幾個例子：

上面圖片中的文字編碼格式為UTF-8，可以用WinHex看到其16進製表示

複製代碼代碼如下:

字符 => UTF-8 => UTF-8二進制=> 去掉固定位置湊夠16位的二進制 => 16進制

漢 => E6B189 => 11100110 10110001 10001001 => 01101100 01001001 => 6C49

　　字 => E5AD97 => 11100101 10101101 10010111 => 01011011 01010111 => 5B57

　　#下面是在chrome命令行下面運行的結果

'u6C49'

"漢"

'u5B57'

"字"

#到這裏的'話，從UTF-8轉換到Unicode已經是一件非常容易的事了，看看轉換的偽代碼

讀取一個字節，11100110

判斷該UTF-8字符的格式，屬於第三種，3個字節

繼續讀取2個字節得到 11100101 10101101 10010111

按照格式去掉固定位 1011011 01010111

不夠16位，左邊補零 01011011 01010111 => 5B57

再看看從Unicode到UTF-8的轉換

複製代碼代碼如下:

5B57

獲取5B57所在的Unicode範圍，0800 <= 5B57 <= FFFF，得知5B57的UTF-8有三個字節，形式為1110xxxx 10xxxxxx 10xxxxxx

獲取5B57的二進制編碼 101101101010111

用上一步驟的二進制編碼從右至左拼接UTF-8編碼 11100101 10101101 10010111

説説問題

再説説今天這個問題的起因，從前端輸入很多單詞，UTF-8格式每個詞最多30個字節，因此會在前端和後台分別做驗證，javascript用的是Unicode編碼，後端程序用的是UTF-8編碼，現在的解決辦法是這樣

前端

糯米文學吧

談談php中的unicode和utf8編碼

PHP正則匹配中文字母數字正則的表達式

如何寫出優雅的PHP代碼

php使用fgetcsv讀取csv文件出現亂碼的解決方法

PHP 7.1中都有哪些重大更新

相關文章