Python之jieba錯誤記錄

阿新 • • 發佈：2019-02-16

   剛剛第一次使用jieba，一開始不知道怎麼使用，後來去官網上下載 http://pypi.python.org/pypi/jieba/ ，解壓後用cmd找到下載路徑之後， python setup.py install，就可以使用了。
   但是我用了現成的程式碼之後一直出錯，錯誤是語法錯誤，後來突然想到我的是python3版本，用的程式碼中print沒有加括號，也就是python2中的用法，改過之後這個錯沒了，但是隨之而來的是這樣一個錯誤：SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xb4 in position 0:invalid start byte，後來看到“待分詞的字串可以是 unicode 或 UTF-8 字串、GBK 字串。注意：不建議直接輸入 GBK 字串，可能無法預料地錯誤解碼成 UTF-8。”在Geany中把檔案編碼方式改成了UTF-8，再編譯就沒有錯誤了。
示例：
#encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
print("Full Mode:", "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print("Default Mode:", "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈")  # 預設是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所，後在日本京都大學深造")  # 搜尋引擎模式
print(", ".join(seg_list))

這裡寫圖片描述

Python之jieba錯誤記錄

剛剛第一次使用jieba，一開始不知道怎麼使用，後來去官網上下載 http://pypi.python.org/pypi/jieba/ ，解壓後用cmd找到下載路徑之後， python setup

python之jieba

中文分詞呼叫jieba的cut對中文字串進行分詞即可，返回一個生成器 In [1]: import jieba In [2]: strings='直方圖是用面積表示各組頻數的多少，矩形的高度表示每一組的頻數或 ...: 頻率，寬度則表示各組的組距，其高度與寬度均有意義' In [

python之各類錯誤彙總[一]

1.使用pymysql時，charset=”utf8”，而不是utf-8，否則會報錯 2.寫方法時，方法沒有包含self引數的情況下，在方法前新增@staticmethod可以例項化類的物件後進行呼叫，但是，如果沒有新增@staticmethod，例項化之後用

Python腳本之django---mysql-記錄主機性能數據到數據庫

django-mysql-host[[email protected] ~]# tail -20000 /tmp/python/alldjango-mysql.py #!/bin/usr/bin pythonimport os,datetime,paramikoimport tab,sys,mult

python 上下文處理錯誤，記錄日誌

正整數 con traceback \n 需要結果 tex add get 之前發過了裝飾器版本的異常記錄日誌，但是需要裝飾在函數或方法上。此篇用上下文管理，用一個with就能記錄錯誤了，不需要寫成函數。 import traceback# pip insta

python之保留有限的歷史記錄(collections.deque)

完美檢查簡單 pre from 史記功能 pat tor 1、deque（maxlen=N）創建一個固定長度的隊列，當有新的記錄加入而隊列已經滿時，會自動移除老的記錄. from collections import deque q = deque(maxlen=3

python之exec執行檔案解碼錯誤

這是原始碼： print(2**100) x=‘Spam’ print(x*8) exec(open(‘script1.py’).read()) 報錯 exec(open(‘script1.py’).read()

第006講：python之常用操作符| 學習記錄（小甲魚零基礎入門學習Python）

（標答出處: 魚C論壇）《零基礎入門學習Python》測試題： Python 的 floor 除法現在使用 “//” 實現，那 3.0 // 2.0 您目測會顯示什麼內容呢？ 1.0 a < b < c 事實上是等於？ (b>a)

python之旅-日記9（記錄零基礎自己的每天學習）

CMD 操作命令 win+R 開啟執行面板 dir 當前目錄 date 當前系統日期 time 當前時間 (cd 新路徑) ver win版本 (copy 檔案目標路徑 ) shutdown -s關閉（-t 時間） -r重啟通過python程式執行cmd os.system(‘命令

python之旅-日記8（記錄零基礎自己的每天學習）

str().zfill（n）一共n長，向右對齊，不夠補0 eg：0000zzz str().strip() 移除字串頭尾指定的字元（預設空格） ord（）對應的ascii碼 hex（）整數轉為十六進位制字串 oct（）返回一個整數的八進位制 chr（）ascii對應的。與ord相反 z

python之旅-日記7（記錄零基礎自己的每天學習）

函式物件類 1.>包（__init__標記為一個包） 2.>函式 f（*l）*l可變長度的引數 **l為字典引數還有列表引數預設引數 3.>模組 4.>面向物件程式設計 1)多型封裝繼承 2)建構函式，解構函式 3)私有屬性（__asdf

python之旅-日記6（記錄零基礎自己的每天學習）

異常除錯 1.>try…except try…except…else 2.>try…1.finally…2. 1程式碼無異常執行並跳轉2程式碼 1程式碼異常仍然執行2 3.>raise 異常物件,異常資訊標識 4.>assert 斷言檢測某個條件表

python之旅-日記5（記錄零基礎自己的每天學習）

檔案互動 1.> 開啟檔案 open(檔名稱，開啟方式) 開啟方式 r讀 w讀寫 a寫 b二進位制打來 U支援換行符 +讀或寫 2.>讀取檔案 read()讀取所有資料 readline()只讀一行 rradlines()讀取每一行，返回列表集 3.>檔案寫

python之旅-日記4（記錄零基礎自己的每天學習）

番外篇 (爬蟲scrapy框架) 2018/9/19 scrapy 1.>scrapy startproject aaa 建立一個爬蟲專案 2.>items.py 修改容器 3.>pipelines.py 修改管道 4.>settings.py 設定開啟pipe

python之旅-日記3（記錄零基礎自己的每天學習）

2018/9/14 基礎知識字串正則表示式 xpath 字串 1.> len（） 2.> eval（n’+'m）字串計算 3.> ord()單個字元轉為ASCII chr()整數轉為字元 4.> raw_input（）輸入轉為字元型別 input（）基礎型別 5.

python3+selenium自動化測試：除錯python程式錯誤記錄，呼叫類時格式出錯

如圖所示，driver後面的括號報錯，當時不明白缺少了什麼，後來查資料，才知道，Login物件化的格式錯誤，應該寫為Login()。修改後沒有再報錯。程式碼如下： from selenium import webdriver from public impor

Linux錯誤記錄之 Failed to establish a new connection: [Errno -2] Name or service not known',))

當你在linux下呼叫介面時，遇到如下問題時：不要緊張因為這個可能是你的電腦沒連上網導致的所以，你可以先ping一下，檢測你的電腦是否可以上網： ping qq.com 如果出現這個： ping: qq.com: Name or service not known

python之關於QTimer.singleShot()的應用記錄

# -*- coding: utf-8 -*- ''' 關於QTimer.singleShot()的應用記錄 ''' import time import numpy as np import matplotlib.pyplot as plt import winsound

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分)

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分) 輸出結果 1、測試物件 data1= '今天上海的天氣真好！我的心情非常高興！如果去旅遊的話我會非常興奮！和你一起去旅遊我會更加幸福！' data2= '今天上海天氣真差,非常討厭下雨,把

python 爬蟲錯誤記錄

1、UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcf in position 116: invalid continuation byte 問題原因：html = response.read().decode(

Python之jieba錯誤記錄

相關推薦