Python之jieba錯誤記錄
阿新 • • 發佈:2019-02-16
剛剛第一次使用jieba,一開始不知道怎麼使用,後來去官網上下載 http://pypi.python.org/pypi/jieba/ ,解壓後用cmd找到下載路徑之後, python setup.py install,就可以使用了。 但是我用了現成的程式碼之後一直出錯,錯誤是語法錯誤,後來突然想到我的是python3版本,用的程式碼中print沒有加括號,也就是python2中的用法,改過之後這個錯沒了,但是隨之而來的是這樣一個錯誤:SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xb4 in position 0:invalid start byte,後來看到“待分詞的字串可以是 unicode 或 UTF-8 字串、GBK 字串。注意:不建議直接輸入 GBK 字串,可能無法預料地錯誤解碼成 UTF-8。”在Geany中把檔案編碼方式改成了UTF-8,再編譯就沒有錯誤了。 示例: #encoding=utf-8 import jieba seg_list = jieba.cut("我來到北京清華大學", cut_all=True) print("Full Mode:", "/ ".join(seg_list)) # 全模式 seg_list = jieba.cut("我來到北京清華大學", cut_all=False) print("Default Mode:", "/ ".join(seg_list)) # 精確模式 seg_list = jieba.cut("他來到了網易杭研大廈") # 預設是精確模式 print(", ".join(seg_list)) seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造") # 搜尋引擎模式 print(", ".join(seg_list))