python判斷unicode字元型別

阿新 • • 發佈：2019-01-29

def is_chinese(uchar):
        """判斷一個unicode是否是漢字"""
        if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
                return True
        else:
                return False
 
def is_number(uchar):
        """判斷一個unicode是否是數字"""
        if uchar >= u'\u0030' and uchar<=u'\u0039':
                return True
        else:
                return False
 
def is_alphabet(uchar):
        """判斷一個unicode是否是英文字母"""
        if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
                return True
        else:
                return False
 
def is_other(uchar):
        """判斷是否非漢字，數字和英文字元"""
        if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):
                return True
        else:
                return False
 
def B2Q(uchar):
        """半形轉全形"""
        inside_code=ord(uchar)
        if inside_code<0x0020 or inside_code>0x7e:      #不是半形字元就返回原來的字元
                return uchar
        if inside_code==0x0020: #除了空格其他的全形半形的公式為:半形=全形-0xfee0
                inside_code=0x3000
        else:
                inside_code+=0xfee0
        return unichr(inside_code)
 
def Q2B(uchar):
        """全形轉半形"""
        inside_code=ord(uchar)
        if inside_code==0x3000:
                inside_code=0x0020
        else:
                inside_code-=0xfee0
        if inside_code<0x0020 or inside_code>0x7e:      #轉完之後不是半形字元返回原來的字元
                return uchar
        return unichr(inside_code)
 
def stringQ2B(ustring):
        """把字串全形轉半形"""
        return "".join([Q2B(uchar) for uchar in ustring])
 
def uniform(ustring):
        """格式化字串，完成全形轉半形，大寫轉小寫的工作"""
        return stringQ2B(ustring).lower()
 
def string2List(ustring):
        """將ustring按照中文，字母，數字分開"""
        retList=[]
        utmp=[]
        for uchar in ustring:
                if is_other(uchar):
                        if len(utmp)==0:
                                continue
                        else:
                                retList.append("".join(utmp))
                                utmp=[]
                else:
                        utmp.append(uchar)
        if len(utmp)!=0:
                retList.append("".join(utmp))
        return retList
 
if __name__=="__main__":
        #test Q2B and B2Q
        for i in range(0x0020,0x007F):
                print Q2B(B2Q(unichr(i))),B2Q(unichr(i))
 
        #test uniform
        ustring=u'中國 人名ａ高頻Ａ'
        ustring=uniform(ustring)
        ret=string2List(ustring)
        print ret

python判斷unicode字元型別

def is_chinese(uchar): """判斷一個unicode是否是漢字""" if uchar >= u'\u4e00' and uchar<=u'\u9fa5': return Tr

python celery捕捉unicode字元型別的錯誤，導致後臺任務失敗的解決方案

背景公司有一個用django(1.8.0)寫的運維平臺，目的用於申請阿里雲和騰訊雲機器；申請雲上機器採用後臺非同步的方式，框架採用redis+celery(3.1.18)，但最近發現一個問題，就是有時候申請騰訊雲機器的後臺任務因為沒有捕捉到某些異常，導致任務會

python判斷unicode是否是漢字，數字，英文，或者其他字元

下面這個小工具包含了判斷unicode是否是漢字，數字，英文，或者其他字元。全形符號轉半形符號。 unicode字串歸一化等工作。 #!/usr/bin/env python # -*- coding:GBK -*- """漢字處理的工具: 判斷unicode是否是漢字，數字，英文，或者

python判斷檔案編碼型別

import chardet for file in ['decode.v', 'fen_ping.v', 'ji_shu.v', 'scanning.v', 'top_level.v']: file_path = 'F:/github_project

Python判斷三角形型別

a,b,c=map(int ,input().split()) if a<+c and b<a+c and c<a+b: if a==b==c: print('等邊三角形') elif a==b or a==c or b==c: if

如何判斷可見字元 Unicode

一個Unicode字串，如何判斷其中都是可見字元？ //根據國標 GB2312 的中文漢字及符號區位碼的範圍判斷 Function CheckIsGB2312(Char : WideChar) : Boolean; var S : AnsiString; begin S := Ch

Python中的Nonetype型別怎麼判斷？

今天寫了個爬蟲，在抓取資料的時候遇到一個問題，我覺得如果不注意，這個問題很容易被忽略，所以特意在部落格記錄下：問題描述：比如，我在提取資訊時，這樣判斷型別： type(answers[0].find_all("table")[0].string) 得到的結果為： N

Python實現決策樹應用之判斷隱形眼鏡的型別

程式碼模組一、DecisionTreePlot # -*- coding:utf-8 -*- __author__ = 'yangxin_ryan' import matplotlib.pyplot as plt """ 定義文字框和箭頭格式【 sawtooth 波浪方框, rou

python 判斷列表字串元素首尾字元是否相同

def match_words(words): ctr = 0 for word in words: if len(word) > 1 and word[0] == word[-1]: ctr += 1 return ctr

python中是否有單獨的字元型別，通過下標的方式表示字串中的字元

說明：　　在python中，沒有單獨的字元型別，一個字元呢就是一個大小為1的字串。　　並且可以通過下標的方式，表示字串中的字元。操作過程： 1.通過[ ]的方式表示字串中的第幾個字元 >>> text = 'python' >>> text[0]

python-判斷變數是否為指定型別-isinstance() 函式

0.摘要 type()函式可以返回變數型別，但卻不能直接判斷是否為我們想要的型別。本文主要介紹isinstance() 函式，通過這一函式，可以判斷變數是否為字串，int，list等。 1.isinstance() 函式 isinstance()函式結構： i

python 內建函式型別判斷isinstance的用法以及與type的區別

type() 方法的語法: type(object) type(name, bases, dict) 引數返回值 name -- 類的名稱。 bases -- 基類的元組。 dict -- 字典，類內定義的名稱空間變數。一個引數返回物件型別, 三個引數

python 判斷引數為Nonetype型別或空

Nonetype和空值是不一致的，可以理解為Nonetype為不存在這個引數，空值表示引數存在，但是值為空判斷方式如下： if hostip is None: print "no ho

Python判斷字串、檔案字元編碼

本段工具程式碼用於判斷字串或者文字檔案的字元編碼型別，可以識別常用的UTF-8，UTF-8-SIG，UTF-16，GBK，GB2312 ，GB18030 ，ASCII字元編碼格式，如果有特殊字符集需求，可以擴充字元編碼列表。程式碼如下： [charse

python 獲取檔案字元編碼型別

被Windows記事本的utf-8編碼坑了一上午，python 按utf-8編碼讀取出來的內容總是有問題。最後通過程式獲取檔案編碼型別才發現，記事本的utf-8是帶BOM的！要用utf-8-sig型別讀取。獲取編碼型別的示例程式： import chardet #

C++中寬字元型別（wchar_t）的編碼一定是Unicode？

問題的起因是和一個朋友討論不同編碼的轉換問題，說到了wchar_t的型別，朋友的看法是，wchar_t的編碼方式是utf-16，長度一定是16位的。我的看法不同，我認為wchar_t的長度和編碼方式都是編譯器和平臺決定的，和語言沒任何關係。後來這個朋友為了說服我，回家把C

Python判斷檔案和字串編碼型別的例項

# 說明：UTF相容ISO8859-1和ASCII，GB18030相容GBK，GBK相容GB2312，GB2312相容ASCIICODES = ['UTF-8', 'UTF-16', 'GB18030', 'BIG5']# UTF-8 BOM字首位元組UTF_8_BOM = b'\xef\xbb\xbf'#

python 判斷字串中是否只有中文字元

python中的encode和decode：首先，在python中字串的表示是用unicode編碼。所以在做編碼轉換時，通常要以unicode作為中間編碼。 decode的作用是將其他編碼的字串轉換成unicode編碼，比如 a.decode('utf-8')

isinstance：python判斷物件型別

我們平時經常使用python的for迴圈，我們發現只要作用於一個可迭代物件，for迴圈就可以正常執行，而我們不太關心該物件究竟是list還是其他資料型別。那麼，如何判斷一個物件是可迭代物件呢？方法是通過collections模組的Iterable型別判斷： >>

Python 判斷使用者輸入錯誤型別

s為字串s.isalnum() 所有字元都是數字或者字母，為真返回 Ture，否則返回 False。s.isalpha() 所有字元都是字母，為真返回 Ture，否則返回 False。s.isdi

python判斷unicode字元型別

相關推薦