python 匹配文字全形轉半形字元

阿新 • • 發佈：2019-02-18

在對文字進行處理的時候經常會遇見要對括號和標點進行匹配

常見的英文(半形)符號如( ) 直接用正則匹配即可

但是遇見全形字元(中文括號、標點)，直接用正則匹配會存在問題：

因為編碼通常為為utf8，若直接匹配，中文括號的3位元組編碼會和一些中文的位元組編碼重複，產生意想不到的結果

若用decode轉為unicode編碼，則可避免產生錯誤結果，但也無法直接用正則匹配到

經過試驗，發現一個看上去最佳的解決方法:

將字串decode之後呼叫一個將全形符號轉為半形符號的方法，然後處理返回的字串

def strQ2B(ustring):
    """全形轉半形"""
    rstring = ""
    for uchar in ustring:
        inside_code=ord(uchar)
        if inside_code == 12288:                              #全形空格直接轉換
            inside_code = 32
        elif (inside_code >= 65281 and inside_code <= 65374): #全形字元（除空格）根據關係轉化
            inside_code -= 65248
        rstring += unichr(inside_code)
    return rstring

def p(s):
    s1 = strQ2B(s.decode())
    p = re.compile('[()]',re.S)
    s1 = p.sub('',s1)
    return s1

這種方法本質上就是將正則的pattern字元和目標的編碼對應, 所以將正則的字串也用unicode表示就好可以:如下

#!/usr/bin/env python
#-*- coding: utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding('utf8')
import re

if __name__ == '__main__':
    s = '123(45)a啊速度（傷害）有限公司'
    ss = re.sub(u'[()（）]', '', s.decode())
    print ss

總的來說兩種方法都還是有必要存在的。

第二種方法簡單直接如果能快速方便列出所有形式的待匹配符號，就果斷選用第二個

反之，若待匹配的各種符號太多太繁瑣，就統一轉為半形再處理更好

python 匹配文字全形轉半形字元

在對文字進行處理的時候經常會遇見要對括號和標點進行匹配常見的英文(半形)符號如( ) 直接用正則匹配即可但是遇見全形字元(中文括號、標點)，直接用正則匹配會存在問題：因為編碼通常為為utf8，若直接匹配，中文括號的3位元組編碼會和一些中文的位元組編碼重複，產生意想不到

中文標點符號轉英文標點符號全形轉半形 String工具類

package com.yl.sf; public class StringUtil { /** * 中文標點符號轉英文字標點符號 * * @param str * 原字串 * @return str 新字串 */ public static

Delphi全形轉半形

function ToDBC( input :String):WideString;varc:WideString;i:Integer;beginc := input;for i:=1 to Length(Input) dobeginif (Ord(c) = 12288) thenbeginc := chr(

Lua UTF-8 全形轉半形

根據UTF-8的編碼規則，可以知道： 1. 全形空格為12288，半形空格為32 2. 其他字元半形(33-126)與全形(65281-65374)的對應關係是：均相差65248 但是UTF-8不能位元組轉換位整型變數，因此需要一個函式，做一個轉換： function

string 全形轉半形

string ToHalf1(string str) { string result = ""; unsigned char tmp; unsigned char tmp1; for (unsigned int i = 0; i < str.le

語料處理之全形轉半形

該指令碼的功能是把文字檔案中的全形字元轉換為半形字元： # -*- coding: utf-8 -*- def strQ2B(inputFilePath,outputFilePath):

PG_全形轉半形函式

CREATE OR REPLACE FUNCTION convertstring(text) RETURNS text AS $$ DECLARE len INTEGER; retval text; tmp text; asciival IN

1.04-Java全形轉半形方法

開發十年，就只剩下這套架構體系了！ >>>

ORACLE 全形數字轉半形數字

資料庫表　test 欄位 id name age 全形數字:１２３４５６半形數字:123456 length和lengthb的區別: length(123456) 6 lengthb(１２３４５６) 12 to_singl

刨根究底字元編碼之——簡體漢字編碼方案(GB2312、GBK、GB18030、GB13000)以及全形、半形、CJK

一、概述 1. 英文字母再加一些其他標點字元之類的也不會超過256個,用一個位元組來表示一個字元就足夠了(2^8 = 256)。但其他一些文字不止這麼多字元,比如中文中的漢字就多達10多萬個,一個位元組只能表示256個字元,肯定是不夠的,因此只能使用多個位元組來表示一個字元。於是當計算

全形和半形的區別及使用方法

一.什麼是全形什麼是半形？一、什麼是全形和半形？ 1. 全形：是一種電腦字元，是指一個全形字元佔用兩個標準字元（或兩個半形字元）的位置。全形佔兩個位元組。漢字字元和規定了全形的英文字元及國標GB2312-80中的圖形符號和特殊字元都是全形字元。在全形中，字母和數字等與漢字

python3環境下的全形與半形轉換程式碼和測試

全形和半形轉換是文字預處理的常見工作之一，然而現在網上一搜python的相關程式碼，幾乎都是python2版本的，因此根據人角和半形的轉換規律，將其程式碼撰寫如下： 1、全形與半形之間的轉換規律角字元unicode編碼從65281~65374 （十六進位制

oracle如何實現全形和半形的切換

由於日文中有數字數字都是使用的全形形式,導致oracle在處理這些全形字串時會出現失敗的情況,下面我們來了解下oracle提供的轉換函式! 轉換成半形函式： to_single_byte(

關於輸入法中的全形、半形，js驗證

輸入法中的全形、半形怎麼區別，手敲了一下，看看有啥不同中半形？，。、-=+——/-*+）（*&……%￥#@！~· 中全形？，。、－＝＋／－＊＋）（×＆……％￥＃＠！～英半形 ?,./-=+_

SQL SERVER 資料庫儲存的值裡面前後有空格，有可能是全形或者半形空格，如何在查詢中處理

例如使用者表裡面的 UserCode 有空格，那麼如何查詢出來對應的使用者表名 tblUser 欄位 UserCode 表記錄為3條 ’ admin','bbbadmin','abc' 如果用 select * from tblUser where Use

SQL 全形和半形轉換

ifobject_id(N'u_convert',N'FN') isnotnulldropfunction u_convertGO/* 轉換原理全形字元unicode編碼從65281~65374 半形字元unicode編碼從33~126 空格比較特殊,全形為 12288,半形為 32 而且除空格外

python 全形半形字元轉換

1.相關原理全形即：Double Byte Character，簡稱DBC 半形即：Single Byte Character，簡稱SBC 在 windows 中，中文和全形字元都佔兩個位元組，並且使用了 ascii　chart 2 (codes 128–25

Java將字串中的全形字元轉成對應的半形字元

package com.hung.test; /** * 全形轉半形 * @author hung * */ public class MyQB { /** * @param args */ public static void main(String[] args) {

輸入法中全形輸入轉成半形輸入

我們在網站或者其他位置輸入字元的時候，有時不小心碰到快捷鍵將半形輸入轉換成全形輸入，會造成一些不必要的麻煩，因此在系統登入的時候不管使用者輸入的是全形還是半形，在前端邏輯中一律轉換成半形字元提交給伺服器。其實，半形字元(33-126)與全形字元(65281-65374)

java全形字元轉換為半形半形轉全形

/// <summary> /// 判斷字元是否英文半形字元或標點 /// </summary> /// <remarks> /// 32 空格 /// 33-47 標點 ///

python 匹配文字全形轉半形字元

相關推薦