!!只保留文字中的中英文和符號.,其餘都刪除
阿新 • • 發佈:2019-02-15
只保留文字中的中英文和符號.,其餘都刪除
想要只保留文字中的中英文和符號.,其餘都刪除嗎?下面這個程式可以幫您。它簡潔、高效,用python實現,只要把正則表示式換成你想要的就可以了。(python3實現)
程式碼實現:
import re
my_file_path = 'data/百度百科語料.txt'
save_file_path = 'data/百度百科語料_去除符號.txt'
# 開啟檔案
my_file = open(my_file_path, 'r', encoding='utf-8')
# 只保留中英文、數字和.的正則表示式
cop = re.compile("[^\u4e00-\u9fa5^.^a-z^A-Z^0-9]" )
for line in my_file.readlines():
string = cop.sub("", line)
save_file = open(save_file_path, 'a', encoding='utf-8')
save_file.write(string)
save_file.flush()
save_file.close()
# ascii(my_file.read(3)[0]) 獲取unicode編碼
# 關閉檔案
my_file.close()
程式碼說明:[^\u4e00-\u9fa5^.^a-z^A-Z^0-9] 為需要替換的字元;string = cop.sub(“”, line) 即把文字中匹配到的字元替換成空字元;my_file_path為要處理的檔案,裡面是文字;save_file_path為處理完成之後的文字檔案。