1. 程式人生 > >Unicode中文和特殊字元的編碼範圍

Unicode中文和特殊字元的編碼範圍

轉載自:

程式設計中有時候需要用到匹配中文的正則,一般用 [ \u4e00-\u9fa5]+ 即可搞定。不過這正則對一般的火星文鳥語就不太適用了,甚至全形的標點符號都不包含在內。例如遊戲裡面的玩家名,普通青年一般都是漢字,文藝青年會加幾個特殊字元,2B青年火星文鳥語都會用上;這時候你就需要更強大的正則了。

        其實,遊戲內大部分的玩家名都取自:中日韓統一表意文字(CJK Unified Ideographs),外加一些特殊的字元;用 [ \u2E80-\uFE4F]+基本都涵蓋了 。根據Unicode5.0整理如下:

1)標準CJK文字

2)全形ASCII、全形中英文標點、半寬片假名、半寬平假名、半寬韓文字母:FF00-FFEF

3)CJK部首補充:2E80-2EFF

4)CJK標點符號:3000-303F

5)CJK筆劃:31C0-31EF

6)康熙部首:2F00-2FDF

7)漢字結構描述字元:2FF0-2FFF

8)注音符號:3100-312F

9)注音符號(閩南語、客家語擴充套件):31A0-31BF

10)日文平假名:3040-309F

11)日文片假名:30A0-30FF

12)日文片假名拼音擴充套件:31F0-31FF

13)韓文拼音:AC00-D7AF

14)韓文字母:1100-11FF

15)韓文相容字母:3130-318F

16)太玄經符號:1D300-1D35F

17)易經六十四卦象:4DC0-4DFF

18)彝文音節:A000-A48F

19)彝文部首:A490-A4CF

20)盲文符號:2800-28FF

21)CJK字母及月份:3200-32FF

22)CJK特殊符號(日期合併):3300-33FF

23)裝飾符號(非CJK專用):2700-27BF

24)雜項符號(非CJK專用):2600-26FF

25)中文豎排標點:FE10-FE1F

26)CJK相容符號(豎排變體、下劃線、頓號):FE30-FE4F