python—獲取字串格式的序列的中文字元,判別和提取中文字元的方法
阿新 • • 發佈:2019-02-04
第一步,先把字串轉為Unicode編碼:
file=str.decode('utf-8')#把utf-8的編碼變成Unicode
第二步,利用正則表示式作為匹配匹配出中文(可以用來在中文文章中去除所有標點)
pattern = re.compile(u'[\u4e00-\u9fa5]+')
這句最重要,注意細節。
filterdata = re.findall(pattern, file)
這樣filterdata就變了一個以非中文字元的字元分割的list。
例如:
comments1="#邢曉瑤的紅包#好運說來就來!邢曉瑤 的紅包中抽到了@微博電影 提供的“5元電影券”,靠譜又驚喜,快來嗨搶吧!邢曉瑤 的紅包"
結果:
['邢曉瑤的紅包', '好運說來就來', '邢曉瑤', '的紅包中抽到了', '微博電影', '提供的', '元電影券', '靠譜又驚喜', '快來嗨搶吧', '邢曉瑤', '的紅包']
---分割線---
a=[] for i in filterdata: i=i.replace('動畫表情','') i = i.replace('照片', '') i = i.replace('桌布', '') a.append(i) print(a) cleaned_comments = ''.join(a)
如果想要把某些特定的字串去掉,可以如上
如果想把列表變為字串還可以如上。