1. 程式人生 > >中文在UTF8和GBK編碼中的範圍

中文在UTF8和GBK編碼中的範圍

文章來源:http://www.reai.us/chinese-in-utf8-and-gbk

  • 編碼範圍
    1. GBK (GB2312/GB18030)
    x00-xff GBK雙位元組編碼範圍
    x20-x7f ASCII
    xa1-xff 中文
    x80-xff 中文

    2. UTF-8 (Unicode)
    u4e00-u9fa5 (中文)
    x3130-x318F (韓文)
    xAC00-xD7A3 (韓文)
    u0800-u4e00 (日文)
    ps: 韓文是大於[u9fa5]的字元

  • 正則例子(使用PHP):
    preg_replace(“/([x80-xff])/”,”",$str);    //GBK中匹配
    preg_replace(“/([u4e00-u9fa5])/”,”",$str);    //UTF8中匹配
  • 另外一些:
    有時候我們也會用到全形英文、特殊符號等
    全形英文的UTF8是: uff21 – uff5a ,是從大寫A開始到小寫的z。
    utf8中的 uff20是@
    utf8中的 uff01到 uff09是我們美式鍵盤上shift + 從1到9鍵上的特殊符號。要注意的是因為@是 uff20,所以 uff02是雙引號,同時6的……是兩個符號的組合,所以也不存在,正題提前一位(也就是說ff06是&, ff09是))。
    utf8中的全形數字是 uff10 – uff19 ,對應關係自然是 0 – 9 。