1. 程式人生 > >Python之jieba錯誤記錄

Python之jieba錯誤記錄

   剛剛第一次使用jieba,一開始不知道怎麼使用,後來去官網上下載 http://pypi.python.org/pypi/jieba/ ,解壓後用cmd找到下載路徑之後, python setup.py install,就可以使用了。
   但是我用了現成的程式碼之後一直出錯,錯誤是語法錯誤,後來突然想到我的是python3版本,用的程式碼中print沒有加括號,也就是python2中的用法,改過之後這個錯沒了,但是隨之而來的是這樣一個錯誤:SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xb4 in position 0:invalid start byte,後來看到“待分詞的字串可以是 unicode 或 UTF-8 字串、GBK 字串。注意:不建議直接輸入 GBK 字串,可能無法預料地錯誤解碼成 UTF-8。”在Geany中把檔案編碼方式改成了UTF-8,再編譯就沒有錯誤了。
示例:
#encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
print("Full Mode:", "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print("Default Mode:", "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈")  # 預設是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造")  # 搜尋引擎模式
print(", ".join(seg_list)) 

這裡寫圖片描述