python 全形半形字元轉換

阿新 • • 發佈：2018-12-10

1.相關原理

全形即：Double Byte Character，簡稱DBC
半形即：Single Byte Character，簡稱SBC
在 windows 中，中文和全形字元都佔兩個位元組，並且使用了 ascii　chart 2 (codes 128–255)；
全形字元的第一個位元組總是被置為 163，而第二個位元組則是相同半形字元碼加上128（不包括空格，全形空格和半形空格也要考慮進去）；
對於中文來說，它的第一個位元組被置為大於163，如’阿’為:176 162，檢測到中文時不進行轉換。
例如：半形 a 為 65，則全形 a 是 163（第一個位元組）、193（第二個位元組，128+65）。

具體規則為：

全形字元unicode編碼從65281~65374 （十六進位制 0xFF01 ~ 0xFF5E）
半形字元unicode編碼從33~126 （十六進位制 0x21~ 0x7E）
空格比較特殊，全形為 12288（0x3000），半形為 32（0x20）
而且除空格外，全形/半形按unicode編碼排序在順序上是對應的（半形 + 65248 = 全形）

所以可以直接通過用±法來處理非空格資料，對空格單獨處理。

用到的一些函式

chr()函式用一個範圍在range（256）內的（就是0～255）整數作引數，返回一個對應的字元。
unichr()跟它一樣，只不過返回的是Unicode字元。
ord()

函式是chr()函式或unichr()函式的配對函式，它以一個字元（長度為1的字串）作為引數，返回對應的ASCII數值，或者Unicode數值。
下面做個試驗：

for i in xrange(33,127):
    print i,chr(i),i+65248,unichr(i+65248)

結果如下：

33 ! 65281 ！
34 " 65282 ＂
35 # 65283 ＃
36 $ 65284 ＄
37 % 65285 ％
38 & 65286 ＆
39 ' 65287 ＇
40 ( 65288 （
41 ) 65289 ）
42 * 65290 ＊
43 + 65291 ＋
44 , 65292 ，
45 - 65293 －
46 . 65294 ．
47 / 65295 ／
48 0 65296 ０
49 1 65297 １
50 2 65298 ２
51 3 65299 ３
52 4 65300 ４
53 5 65301 ５
54 6 65302 ６
55 7 65303 ７
56 8 65304 ８
57 9 65305 ９
58 : 65306 ：
59 ; 65307 ；
60 < 65308 ＜
61 = 65309 ＝
62 > 65310 ＞
63 ? 65311 ？
64 @ 65312 ＠
65 A 65313 Ａ
66 B 65314 Ｂ
67 C 65315 Ｃ
68 D 65316 Ｄ
69 E 65317 Ｅ
70 F 65318 Ｆ
71 G 65319 Ｇ
72 H 65320 Ｈ
73 I 65321 Ｉ
74 J 65322 Ｊ
75 K 65323 Ｋ
76 L 65324 Ｌ
77 M 65325 Ｍ
78 N 65326 Ｎ
79 O 65327 Ｏ
80 P 65328 Ｐ
81 Q 65329 Ｑ
82 R 65330 Ｒ
83 S 65331 Ｓ
84 T 65332 Ｔ
85 U 65333 Ｕ
86 V 65334 Ｖ
87 W 65335 Ｗ
88 X 65336 Ｘ
89 Y 65337 Ｙ
90 Z 65338 Ｚ
91 [ 65339 ［
92 \ 65340 ＼
93 ] 65341 ］
94 ^ 65342 ＾
95 _ 65343 ＿
96 ` 65344 ｀
97 a 65345 ａ
98 b 65346 ｂ
99 c 65347 ｃ
100 d 65348 ｄ
101 e 65349 ｅ
102 f 65350 ｆ
103 g 65351 ｇ
104 h 65352 ｈ
105 i 65353 ｉ
106 j 65354 ｊ
107 k 65355 ｋ
108 l 65356 ｌ
109 m 65357 ｍ
110 n 65358 ｎ
111 o 65359 ｏ
112 p 65360 ｐ
113 q 65361 ｑ
114 r 65362 ｒ
115 s 65363 ｓ
116 t 65364 ｔ
117 u 65365 ｕ
118 v 65366 ｖ
119 w 65367 ｗ
120 x 65368 ｘ
121 y 65369 ｙ
122 z 65370 ｚ
123 { 65371 ｛
124 | 65372 ｜
125 } 65373 ｝
126 ~ 65374 ～

2. 相關程式碼

2.1 全形轉半形

def full2half(s):
    n = []
    s = s.decode('utf-8')
    for char in s:
        num = ord(char)
        if num == 0x3000:
            num = 32
        elif 0xFF01 <= num <= 0xFF5E:
            num -= 0xfee0
        num = unichr(num)
        n.append(num)
return ''.join(n)

2.2 半形轉全形

def half2full(s):
    n = []
    s = s.decode('utf-8')
    for char in s:
        num = char(char)
        if num == 320:
            num = 0x3000
        elif 0x21 <= num <= 0x7E:
            num += 0xfee0
        num = unichr(num)
        n.append(num)
return ''.join(n)

2.3 自定義轉換

上面的實現方式非常的簡單，但是現實情況下可能並不會把所以的字元統一進行轉換，比如中文文章中我們期望將所有出現的字母和數字全部轉化成半形，而常見標點符號統一使用全形，上面的轉化就不適合了。解決方案，是自定義詞典。

#!/usr/bin/env python
# -*- coding: utf-8 -*-
 
FH_SPACE = FHS = ((u"　", u" "),)
FH_NUM = FHN = (
    (u"０", u"0"), (u"１", u"1"), (u"２", u"2"), (u"３", u"3"), (u"４", u"4"),
    (u"５", u"5"), (u"６", u"6"), (u"７", u"7"), (u"８", u"8"), (u"９", u"9"),
)
FH_ALPHA = FHA = (
    (u"ａ", u"a"), (u"ｂ", u"b"), (u"ｃ", u"c"), (u"ｄ", u"d"), (u"ｅ", u"e"),
    (u"ｆ", u"f"), (u"ｇ", u"g"), (u"ｈ", u"h"), (u"ｉ", u"i"), (u"ｊ", u"j"),
    (u"ｋ", u"k"), (u"ｌ", u"l"), (u"ｍ", u"m"), (u"ｎ", u"n"), (u"ｏ", u"o"),
    (u"ｐ", u"p"), (u"ｑ", u"q"), (u"ｒ", u"r"), (u"ｓ", u"s"), (u"ｔ", u"t"),
    (u"ｕ", u"u"), (u"ｖ", u"v"), (u"ｗ", u"w"), (u"ｘ", u"x"), (u"ｙ", u"y"), (u"ｚ", u"z"),
    (u"Ａ", u"A"), (u"Ｂ", u"B"), (u"Ｃ", u"C"), (u"Ｄ", u"D"), (u"Ｅ", u"E"),
    (u"Ｆ", u"F"), (u"Ｇ", u"G"), (u"Ｈ", u"H"), (u"Ｉ", u"I"), (u"Ｊ", u"J"),
    (u"Ｋ", u"K"), (u"Ｌ", u"L"), (u"Ｍ", u"M"), (u"Ｎ", u"N"), (u"Ｏ", u"O"),
    (u"Ｐ", u"P"), (u"Ｑ", u"Q"), (u"Ｒ", u"R"), (u"Ｓ", u"S"), (u"Ｔ", u"T"),
    (u"Ｕ", u"U"), (u"Ｖ", u"V"), (u"Ｗ", u"W"), (u"Ｘ", u"X"), (u"Ｙ", u"Y"), (u"Ｚ", u"Z"),
)
FH_PUNCTUATION = FHP = (
    (u"．", u"."), (u"，", u","), (u"！", u"!"), (u"？", u"?"), (u"”", u'"'),
    (u"’", u"'"), (u"‘", u"`"), (u"＠", u"@"), (u"＿", u"_"), (u"：", u":"),
    (u"；", u";"), (u"＃", u"#"), (u"＄", u"$"), (u"％", u"%"), (u"＆", u"&"),
    (u"（", u"("), (u"）", u")"), (u"‐", u"-"), (u"＝", u"="), (u"＊", u"*"),
    (u"＋", u"+"), (u"－", u"-"), (u"／", u"/"), (u"＜", u"<"), (u"＞", u">"),
    (u"［", u"["), (u"￥", u"\\"), (u"］", u"]"), (u"＾", u"^"), (u"｛", u"{"),
    (u"｜", u"|"), (u"｝", u"}"), (u"～", u"~"),
)
FH_ASCII = HAC = lambda: ((fr, to) for m in (FH_ALPHA, FH_NUM, FH_PUNCTUATION) for fr, to in m)
 
HF_SPACE = HFS = ((u" ", u"　"),)
HF_NUM = HFN = lambda: ((h, z) for z, h in FH_NUM)
HF_ALPHA = HFA = lambda: ((h, z) for z, h in FH_ALPHA)
HF_PUNCTUATION = HFP = lambda: ((h, z) for z, h in FH_PUNCTUATION)
HF_ASCII = ZAC = lambda: ((h, z) for z, h in FH_ASCII())
 
 
def convert(text, *maps, **ops):
    """ 全形/半形轉換
    args:
        text: unicode string need to convert
        maps: conversion maps
        skip: skip out of character. In a tuple or string
        return: converted unicode string
    """
 
    if "skip" in ops:
        skip = ops["skip"]
        if isinstance(skip, basestring):
            skip = tuple(skip)
 
        def replace(text, fr, to):
            return text if fr in skip else text.replace(fr, to)
    else:
        def replace(text, fr, to):
            return text.replace(fr, to)
 
    for m in maps:
        if callable(m):
            m = m()
        elif isinstance(m, dict):
            m = m.items()
        for fr, to in m:
            text = replace(text, fr, to)
    return text
 
 
if __name__ == '__main__':
    text = u"成田空港—【ＪＲ特急成田エクスプレス號・橫浜行，2站】—東京—【ＪＲ新幹線はやぶさ號・新青森行,6站 】—新青森—【ＪＲ特急スーパー白鳥號・函館行，4站 】—函館"
	print convert(text, FH_ASCII, {u"【": u"[", u"】": u"]", u",": u"，", u".": u"。", u"?": u"？", u"!": u"！"}, spit="，。？！“”")

2.4 demo

fin = open("foward_standard.log",'r')
fout = open("foward_standard2.log",'w')

lines = fin.readlines()

def strB2Q(ustring):
    """"""
    ustring = ustring.decode('gb18030')
    rstring = ""
    for uchar in ustring:
        inside_code = ord(uchar)
        if inside_code == 32:
            inside_code = 32#12288
        elif inside_code >= 32 and inside_code <= 126:
            inside_code += 65248

        rstring += unichr(inside_code)
    #rstring.encode('gb18030')
    return rstring

def transferStr(ustring):
    #ustring = ustring.decode('gb18030')
    try:
        rstring = ""
        for uchar in ustring:
            inside_code=ord(uchar)
            if inside_code == 0x0020 or inside_code==0x3000 or inside_code==0x003f or inside_code==0xff1f:
                inside_code = 63
            elif inside_code == 12288:
                inside_code = 32
            elif (inside_code >= 65281 and inside_code <= 65374):
                inside_code -= 65248
            rstring += unichr(inside_code)
        rstring = rstring.lower()
        return rstring.encode('gb18030')
    except:
        ustring = ustring.lower()
        return ustring.encode('gb18030')

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

for line in lines:
    fout.write((strB2Q(line.split("\t")[0])+'\t'+line.split("\t")[1]).encode("gb18030"))

python 全形半形字元轉換

1.相關原理

2. 相關程式碼

2.1 全形轉半形

2.2 半形轉全形

2.3 自定義轉換

2.4 demo

參考文獻

python 全形半形字元轉換

java中全形半形字元的相互轉換

java全形字元轉換為半形半形轉全形

字串全形半形轉換

全形半形字元對照表

sql 全形半形的轉換

SQLserver2008全形半形轉換

論文中的標點是用半形的還是全形?半形和全形有什麼區別?

正則替換字串的全形半形標點符號

如何設定Sql Server資料庫查詢時區分大小寫和全形半形

mac 全形/半形標點符號切換

Windows修改輸入法全形半形快捷鍵

去除字串首尾空格（全形&半形）

C++中的半形、全形字元轉換

python 匹配文字全形轉半形字元

全形字元半形字元區別

刨根究底字元編碼之——簡體漢字編碼方案(GB2312、GBK、GB18030、GB13000)以及全形、半形、CJK

python3環境下的全形與半形轉換程式碼和測試

網頁和自然語言處理中的字元問題（半形和全形）

Java將字串中的全形字元轉成對應的半形字元

python 全形半形字元轉換

1.相關原理

2. 相關程式碼

2.1 全形轉半形

2.2 半形轉全形

2.3 自定義轉換

2.4 demo

參考文獻

相關推薦