1. 程式人生 > >各種語系的unicode對應以及local編碼方式

各種語系的unicode對應以及local編碼方式

general orm set 數字 selectors OS n-1 -c 研究

鏈接:http://www.doc88.com/p-801578373970.html

一.英文

Unicode範圍: 0041-005A, 0061-007A (若含數字與符號,則為0021-007E)

locale編碼: ANSI

1. ANSI
HTML charset: us-ascii
RTF charset: 0
編碼方式: 41-5A, 61-7A (若含數字與符號,則為21-7E)

二.中文
Unicode範圍: 2E80-2FDF, 3400-4DBF, 4E00-9FFF
備註:F900-FAFF的相容型中文字碼,應轉至一般的中文字碼處理,31A0-31BF則為註音符號表
locale編碼: 繁體中文有BIG5, CNS, 簡體中文為GB

1.BIG5
HTML charset: big5
RTF charset: 136
編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為40-7E, A1-FE
備註:big5+目前幾乎無人使用,故省略不提

2.CNS
HTML charset: 無 (應為euc-tw或iso-2022-cn, 但IE並不支援)
RTF charset: 無
編碼方式: 多byte語系
byte 1範圍為A1-FE時為2 byte編碼, byte 2範圍為A1-FE
byte 1為8E時, 為4 byte編碼, byte 2範圍為A1-B0, byte 3與byte 4範圍均為A1-FE
備註: 4 byte編碼時, byte 2為A1與2 byte編碼之字碼相同 (即第1字面), CNS目前只使用了7個字面, 因此byte 2實際使用範圍為A1-A7, 早期第15字面有放了一些字碼, 後來都已編入前7個字面內了

3.GB
HTML charset: gb2312, gbk, euc-cn
RTF charset: 134
編碼方式: 雙byte語系, byte 1範圍為81-FE, byte 2範圍為40-7E, 80-FE

三.日文
Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字碼)
備註:FF00-FFEF有半形日文,應轉至一般日文字碼處理
locale編碼: Shift-JIS, EUC-JP

1.Shift-JIS
HTML charset: shift_jis, x-sjis, iso-2022-jp
RTF charset: 128
編碼方式: 單/雙byte語系
byte 1範圍為A1-DF時為1 byte編碼
byte 1範圍為81-9F, E0-EF時為2 byte編碼, byte 2範圍為40-7E, 80-FC

2.EUC-JP
HTML charset: euc-jp, x-euc-jp
RTF charset: 無
編碼方式: 多byte語系
byte 1為8E時, 為2 byte編碼, byte 2範圍為A1-DF
byte 1範圍為A1-FE時, 為2 byte編碼, byte 2範圍為A1-FE
byte 1為8F時為3 byte編碼, byte 2與byte 3範圍均為A1-FE
備註: IE不支援3 byte編碼部份

四.韓文
Unicode範圍: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字碼)
備註:FF00-FFEF有半形韓文,應轉至一般韓文字碼處理
locale編碼: Johab, EUC-KR

1.Johab
HTML charset: johab
RTF charset: 130
編碼方式: 雙byte語系
byte 1範圍為84-D3時, byte 2範圍為41-7E, 81-FE
byte 1範圍為D8-DE, E0-FE時, byte 2範圍為31-7E, 91-FE

2.EUC-KR
HTML charset: euc-kr, iso-2022-kr
RTF charset: 129
編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為A1-FE

五.阿拉伯文
Unicode範圍: 0600-06FF, 0750-077F
locale編碼: Windows

1.Windows
HTML charset: windows-1256
RTF charset: 178
編碼方式: 1 byte語系

六.泰文
Unicode範圍: 0E00-0E7F
locale編碼: Windows

1.Windows
HTML charset: windows-874
RTF charset: 222
編碼方式: 1 byte語系

七.俄文
Unicode範圍: 0400-052F (西裏爾文)
locale編碼: Windows, ISO, KOI8-U, KOI8-R

1.Windows
HTML charset: windows-1251
RTF charset: 204
編碼方式: 1 byte語系

2.ISO
HTML charset: iso-8859-5
RTF charset: 無
編碼方式: 1 byte語系

3.KOI8-U
HTML charset: koi8-u
RTF charset: 無
編碼方式: 1 byte語系

4.KOI8-R
HTML charset: koi8-r
RTF charset: 無
編碼方式: 1 byte語系

八.德文/法文
Unicode範圍: 00C0-00FF(混用英文字母)
備註:字母上面有2點者為德文, 字母上面有重音符號者為法文
locale編碼: ANSI

1.ANSI
HTML charset: iso-8859-1, windows-1252
RTF charset: 0
編碼方式: 1 byte語系

九.印尼文/馬來西亞文
Unicode範圍: 同英文, 為拼音語系
locale編碼: 同英文

十.其他

希臘文,土耳其文,希伯來文,中歐拉丁語文,越南文等尚在研究中...

十.中歐語系
Unicode範圍(拉丁語文): 00C0-02AF, 1E00-1EFF(混用英文)
locale編碼: Windows, ISO

1.Windows
HTML charset: windows-1250
RTF charset: 238
編碼方式: 1 byte語系

2.ISO
HTML charset: iso-8859-2
RTF charset: 無
編碼方式: 1 byte語系

十一.希臘文

Unicode範圍: 0370-03FF, 1F00-1FFF, 2C80-2CFF
locale編碼: Windows

1.Windows
HTML charset: windows-1253, iso8859-7 (後者IE不支援)
RTF charset: 161
編碼方式: 1 byte語系

十二.希伯來文
Unicode範圍: 0590-05FF
locale編碼: Windows

1.Windows
HTML charset: windows-1255, iso8859-8 (後者IE不支援)
RTF charset: 177
編碼方式: 1 byte語系

十三.土耳其文
Unicode範圍: 同拉丁語文(混用英文)
locale編碼: Windows

1.Windows
HTML charset: windows-1254, iso8859-9 (後者IE不支援)
RTF charset: 162
編碼方式: 1 byte語系

*** Unicode語系字碼分布表

英文 0041-005A, 0061-007A

中文 2E80-2FDF, 3100-312F, 3400-4DBF, 4E00-9FFF, F900-FAFF

日文 3040-30FF, 31F0-31FF

韓文 1100-11FF, 3130-318F, AC00-D7AF

泰文 0E00-0E7F

寮文 0E80-0EFF

藏文 0F00-0FFF

彜文 A000-A4CF

蒙古文 1800-18AF

緬甸文 1000-109F

高棉文 1780-17FF

拉丁文(Latin) 00C0-02AF, 1E00-1EFF

希臘文(Greek) 0370-03FF, 1F00-1FFF, 2C80-2CFF

希伯來文 (Hebrew) 0590-05FF

阿拉伯文(Arabic) 0600-06FF, 0750-077F

敘利亞文(Syriac) 0700-074F

西裏爾文(Cyrillic), 0400-052F

亞美尼亞文(Armenian) 0530-058F

孟加拉文(Bengali) 0980-09FF

僧伽羅文(Sinhala,斯裏蘭卡文) 0D80-0DFF

喬治亞文(Georgian,英國古文) 10A0-10FF, 2D00-2D2F

歐甘文(Ogham,愛爾蘭文) 1680-169F

如尼文(Runic,北歐古文) 16A0-16FF

塔納文(Thaana,一種印度文) 0780-07BF

比哈文(Syloti Nagri,一種印度文) A800-A82F

林布文(Limbu,一種印度文) 1900-194F

布吉文(Buginese,一種印度文) 1A00-1A1F

奧裏雅文(Oriya,一種印度文) 0B00-0B7F

泰米爾文(Tamil,一種印度文) 0B80-0BFF

泰盧固文(Telugu,一種印度文) 0C00-0C7F

卡納達文(Kannada,一種印度文) 0C80-0CFF

天城體梵文(Devanagari,一種印度文) 0900-097F

古爾穆基文(Gurmukhi,一種印度文) 0A00-0A7F

古吉拉特文(Gujarati,一種印度文) 0A80-0AFF

馬拉雅拉姆文(Malayalam,一種印度文) 0D00-0D7F

他加祿文(Tagalog,一種菲律賓文) 1700-171F

漢奴勞文(Hanunoo,一種菲律賓文) 1720-173F

Buhid(一種菲律賓文) 1740-175F

Tagbanwa(一種菲律賓文) 1760-177F

徹羅基文(Cherokee,美國印弟安文) 13A0-13FF

Tai Le(中緬邊境民族文) 1950-197F

新傣文(中國少數民族文) 1980-19DF

格拉哥裏文(Glagolitic,一種斯拉夫文) 2C00-2C5F

衣索比亞文(Ethiopic) 1200-139F, 2D80-2DDF

提非納文(Tifinagh,一種衣索匹亞文) 2D30-2D7F


*** Unicode字碼分布表

0000-007F C0 Control and Basic Latin, 標準ANSI字元

0080-00FF C1 Control and Latin-1 Supplement, 控制碼與拉丁文

0100-024F Latin Extended, 拉丁文

0250-02AF IPA Extensions, 拉丁文

02B0-02FF Spacing Modifier Letters, 符號

0300-036F Combining Diacritical Marks, 組合記號

0370-03FF Greek and Coptic, 希臘文與科普特文

0400-052F Cyrillic, 西裏爾文

0530-058F Armenian, 亞美尼亞文

0590-05FF Hebrew, 希伯來文

0600-06FF Arabic, 阿拉伯文

0700-074F Syriac, 敘利亞文

0750-077F Arabic Supplement, 阿拉伯文

0780-07BF Thaana, 塔納文 (一種印度文)

07C0-07FF 保留

0900-097F Devanagari, 天城體梵文 (一種印度文)

0980-09FF Bengali, 孟加拉文

0A00-0A7F Gurmukhi, 古爾穆基文 (一種印度文)

0A80-0AFF Gujarati, 古吉拉特文 (一種印度文)

0B00-0B7F Oriya, 奧裏雅文 (一種印度文)

0B80-0BFF Tamil, 泰米爾文 (一種印度文)

0C00-0C7F Telugu, 泰盧固文 (一種印度文)

0C80-0CFF Kannada, 卡納達文 (一種印度文)

0D00-0D7F Malayalam, 馬拉雅拉姆文 (一種印度文)

0D80-0DFF Sinhala, 僧伽羅文 (斯裏蘭卡文)

0E00-0E7F Thai, 泰文

0E80-0EFF Lao, 寮文

0F00-0FFF Tibetan, 藏文

1000-109F Myanmar, 緬甸文

10A0-10FF Georgian, 喬治亞文 (英國古文)

1100-11FF Hangul Jamo, 韓文

1200-139F Ethiopic, 衣索比亞文

13A0-13FF Cherokee, 徹羅基文 (美國印弟安文)

1400-167F Unified Canadian Aboriginal Syllabics, 加拿大土語音節符號

1680-169F Ogham, 歐甘文 (愛爾蘭文)

16A0-16FF Runic, 如尼文 (北歐古文)

1700-171F Tagalog, 他加祿文 (一種菲律賓文)

1720-173F Hanunoo, 漢奴勞文 (一種菲律賓文)

1740-175F Buhid, (一種菲律賓文)

1760-177F Tagbanwa, (一種菲律賓文)

1780-17FF Khmer, 高棉文

1800-18AF Mongolian, 蒙古文

18B0-18FF 保留

1900-194F Limbu, 林布文 (一種印度文)

1950-197F Tai Le, (中緬邊境民族文)

1980-19DF New Tai Lue, 新傣文 (中國少數民族文)

19E0-19FF Khmer Symbols, 高棉文符號

1A00-1A1F Buginese, 布吉文 (一種印度文)

1A20-1CFF 保留

1D00-1DBF Phonetic Extensions, 音標符號

1DC0-1DFF Combining Diacritical Marks Supplement, 組合記號

1E00-1EFF Latin Extended Additional, 拉丁文

1F00-1FFF Greek Extended, 希臘文

2000-206F General Punctuation, 標點符號

2070-209F Superscripts and Subscripts, 上下標符號

20A0-20CF Currency Symbols, 貨幣符號

20D0-20FF Combining Diacritical Marks for Symbols, 符號用組合記號

2100-214F Letterlike Symbols, 似字母符號

2150-218F Number Forms, 數字符號

2190-21FF Arrows, 箭頭符號

2200-22FF Mathematical Operators, 數學運算符號

2300-23FF Miscellaneous Technical, 特殊符號

2400-243F Control Pictures, 控制記號

2440-245F Optical Character Recognition, 光學字元識別符號

2460-24FF Enclosed Alphanumerics, 括號字母數字符號

2500-257F Box Drawing, 表格符號

2580-259F Block Elements, 區塊符號

25A0-25FF Geometric Shapes, 幾何圖形符號

2600-26FF Miscellaneous Symbols, 其他符號

2700-27BF Dingbats, 前導符號

27C0-27EF Miscellaneous Mathematical Symbols-A, 數學符號

27F0-27FF Supplemental Arrows-A, 箭頭符號

2800-28FF Braille Patterns, 盲文 (點字符號)

2900-297F Supplemental Arrows-B, 箭頭符號

2980-29FF Miscellaneous Mathematical Symbols-B, 數學符號

2A00-2AFF Supplemental Mathematical Operators, 數學運算符號

2B00-2BFF Miscellaneous Symbols and Arrows, 箭頭符號

2C00-2C5F Glagolitic, 格拉哥裏文 (一種斯拉夫文)

2C80-2CFF Coptic, 科普特文 (一種埃及文)

2D00-2D2F Georgian Supplement, 喬治亞文 (英國古文)

2D30-2D7F Tifinagh, 提非納文 (一種衣索匹亞文)

2D80-2DDF Ethiopic Extended, 衣索匹亞文

2DE0-2DFF 保留

2E00-2E7F Supplemental Punctuation, 標點符號

2E80-2EFF CJK Radicals Supplement, 中文部首

2F00-2FDF Kangxi Radicals, 中文部首

2FF0-2FFF Ideographic Description Characters, 漢字結構描述符號

3000-303F CJK Symbols and Punctuation, 中日韓符號

3040-309F Hiragana, 日文平假名

30A0-30FF Katakana, 日文片假名

3100-312F Bopomofo, 中文註音符號

3130-318F Hangul Compatibility Jamo, 韓文

3190-319F Kanbun, 中文上下標

31A0-31BF Bopomofo Extended, 中文註音符號

31C0-31EF CJK Strokes, 中文筆劃符號

31F0-31FF Katakana Phonetic Extensions, 日文片假名

3200-33FF Enclosed CJK Letters and Months, 中日韓組合符號字

3400-4DBF CJK Unified Ideographs Extension A, 中文

4DC0-4DFF Yijing Hexagram Symbols, 易經符號

4E00-9FFF CJK Unified Ideographs, 中文

A000-A4CF Yi, 彜文

A4D0-A6FF 保留

A700-A71F Modifier Tone Letters, 音標符號

A720-A7FF 保留

A800-A82F Syloti Nagri, 比哈文 (一種印度文)

A830-A8FF 保留

AC00-D7AF Hangul Syllables, 韓文

D780-D7FF 保留

D800-DFFF Surrogates, UTF-16相容保留區

E000-F8FF Private Use Area, 自造字專用區

F900-FAFF CJK Compatibility Ideographs, 中文

FB00-FB4F Alphabetic Presentation Forms, 字母變體顯現形式

FB50-FDFF Arabic Presentation Forms-A, 阿拉伯文變體顯現形式

FE00-FE0F Variation Selectors, 字型變換選取器符號

FE10-FE1F Vertical Forms, 中文直排符號

FE20-FE2F Combining Half Marks, 組合記號

FE30-FE4F CJK Compatibility Forms, 中文直排符號

FE50-FE6F Small Form Variants, 標點符號

FE70-FEFF Arabic Presentation Forms-B, 阿拉伯文變體顯現形式

FF00-FFEF Halfwidth and Fullwidth Forms, 半形及全形字符

FFF0-FFFF Specials, 特殊保留區

各種語系的unicode對應以及local編碼方式