中文在UTF8和GBK編碼中的範圍
阿新 • • 發佈:2019-01-26
文章來源:http://www.reai.us/chinese-in-utf8-and-gbk
-
編碼範圍
1. GBK (GB2312/GB18030)
x00-xff GBK雙位元組編碼範圍
x20-x7f ASCII
xa1-xff 中文
x80-xff 中文2. UTF-8 (Unicode)
u4e00-u9fa5 (中文)
x3130-x318F (韓文)
xAC00-xD7A3 (韓文)
u0800-u4e00 (日文)
ps: 韓文是大於[u9fa5]的字元
-
正則例子(使用PHP):
preg_replace(“/([x80-xff])/”,”",$str); //GBK中匹配
preg_replace(“/([u4e00-u9fa5])/”,”",$str); //UTF8中匹配
-
另外一些:
有時候我們也會用到全形英文、特殊符號等
全形英文的UTF8是: uff21 – uff5a ,是從大寫A開始到小寫的z。
utf8中的 uff20是@
utf8中的 uff01到 uff09是我們美式鍵盤上shift + 從1到9鍵上的特殊符號。要注意的是因為@是 uff20,所以 uff02是雙引號,同時6的……是兩個符號的組合,所以也不存在,正題提前一位(也就是說ff06是&, ff09是))。
utf8中的全形數字是 uff10 – uff19 ,對應關係自然是 0 – 9 。