用python檢索漢字的坑點

阿新 • • 發佈：2019-02-05

因為工作需要，寫一個python指令碼，檢索檔案中的所有漢字，遇到了一點坑

檢索一類特徵的東西當然需要用正則表示式了，python中的re

先看原始程式碼，python版本2.7

#!/sr/bin/env python
# -*- coding: utf-8 -*-
import os
import sys
import re

def searchword(path):
    f = open(path)
    lines = f.readlines()
    pattern = re.compile(u"[\u4e00-\u9fa5]+")
    for line in lines:
        line.decode('utf8')
        results = re.findall(pattern, line)
        for str in results:
            print str
    f.close()

按照網上的林林總總，這樣寫看著沒有什麼問題，但是測試通不過，檢索不出漢字

為什麼呢？

先是想編碼問題，可是已經

line.decode('utf8') utf8編碼了呀，應該沒問題才對，為了測試，加了一句程式碼

line.decode('utf8')
print isinstance(line, unicode)

結果為False, 所以顯然字串編碼非unicode，具體原因還未知，python也是即用即查的，後續認真探索一下

line.decode('utf8')  ----->  line = unicode(line, 'utf-8')程式碼替換城這個，發現編碼為unicode了，檢索也好使了，暫且記錄一下，原因待查

line.decode('utf8')

用python檢索漢字的坑點

因為工作需要，寫一個python指令碼，檢索檔案中的所有漢字，遇到了一點坑檢索一類特徵的東西當然需要用正則表示式了，python中的re先看原始程式碼，python版本2.7#!/sr/bin/env python # -*- coding: utf-8 -*- import

Python篇：用python畫xy散點圖

python畫xy散點圖測試筆記 import matplotlib.pyplot as plt plt.title("I'm a scatter diagram.") plt.xlim(xmax=7,xmin=0) plt.ylim(ymax=7,ymin=0) plt.anno

用Python學分析 - 散點圖

code 形狀 isp lac 可選值 color .sh rand marker # 運用散點圖對數據分布得到直觀的認識 1 import numpy as np 2 import matplotlib.pyplot as plt 3 4 # 設計 x, y

用python實現LBP特征點計算

i+1 [0 code read cvt lena 實現 ims numpy 1 import cv2 2 import numpy as np 3 4 5 def olbp(src): 6 dst = np.zeros(src.shape,dty

用Python登錄好友QQ空間點贊

selenium 說了 bdr cnblogs bsp 按鈕 att 最大 log 　　記得之前跟我女票說過，說要幫她空間點贊，點到999就不點了。剛開始還能天天記得，但是後來事情一多，就難免會忘記，前兩天點贊的時候忽然覺得這樣好枯燥啊，正好也在學Python，就在想能不能

個稅起徵點上調至5000，用Python算一算少交多少稅

今天出了一個重磅訊息，個稅起徵點從3500上調到5000啦！廣大IT農民工的生活壓力又減輕了一些，有沒有晚上加一個雞腿，要不要~ 開心歸開心，我們來用Python算一算，新的規則下，我們需要交多少稅，比原先少交多少稅。下面的這張表是稅率表，這是對超過免徵額部分的收入徵收的稅率這次調

《用Python寫網路爬蟲》第一章踩坑

教程使用環境為pyhon2.x，使用python3.x進行學習時遇到一些坑，記錄下解決辦法。由於python2.x中的urllib2模組在3.x中被整合到了urllib模組中，教程中涉及urllib2的部分的程式碼需調整 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; f

[Python-Selenium] 入門總結+坑點陳列

這文章主要介紹了：如何入門Selenium Selenium進階指南坑點陳列 1. 如何入門Selenium Selenium主要涉及動態網頁的爬取，一般都是結合F12，或者BeautifulSoup一起服用效果更佳。那麼最開始如何從0開始入門呢當然從安裝做起

用Python和OpenCV建立一個圖片搜尋引擎時遇到的坑

在學習http://python.jobbole.com/80860/ 中的圖片搜尋引擎時，遇到一些問題，花費了很長時間解決：問題一：TypeError: ellipse() takes at most 5 arguments (8 given) 解決：有兩個引數不同的el

【112】用python畫散點圖和直線圖的小例子

最近自學python，寫了個畫散點圖和直線圖的小例子。把這個例子放到部落格裡做個備份。 import numpy as np import matplotlib.pyplot as plt imp

python list刪除元素是要注意的坑點

我們直接先給出輸出與預期不同的程式碼 In[28]: a = [1,2,3,4,5,6] In[29]: for i in a: ...: a.remove(i) ...: In[30]: a Out[30]: [2, 4,

聽歌識曲--用python實現一個音樂檢索器

聽歌識曲，顧名思義，用裝置“聽”歌曲，然後它要告訴你這是首什麼歌。而且十之八九它還得把這首歌給你播放出來。這樣的功能在QQ音樂等應用上早就出現了。我們今天來自己動手做一個自己的聽歌識曲我們設計的總體流程圖很簡單：錄音部分我們要想“聽”，就必須先有錄音的過程。在我們的實驗中，我們的曲庫也要用我們的錄

python每日一題：分散式程序之坑點

1.看{python爬蟲開發與專案實戰}中關於分散式程序，一直卡在這個知識點，書中的這個例子描述是在不同電腦上進行執行的，但這裡有一個前提：兩臺電腦的網段需相同，所以，程式設計練習時，對著兩臺電腦一直找問題，始終沒解決。 2.書中關於ip地址是127.0.0.1，這個地址是迴環地址，在同一臺機器上，開兩個c

用 Python 寫爬蟲時應該注意哪些坑

1. 新增user-agent，header。避免一開始就被遮蔽掉。推薦用urllib2，requests(最近才用這個，發現很好用) 2. 編碼用utf-8，本地儲存的時候用codes.open 來儲存中文字元 3. lxml解析的速度要比beautifulsoup快的多 4. 如果beautiful和l

用python做自動化測試--Andriod App 的自動化-Appium的那些坑

第一個坑， UiSelector.text裡面的字元必須是雙引號括起來，在Python裡面字元可以單引號，也可以雙引號。但UiSelector 是Andriod SDK 裡面的函式，Andriod SDK 是JAVA實現的，字元只能雙引號括起來。 driver.find

python urllib, urllib2實現登陸和簡單爬取網頁(個人坑點筆記)

不想做重複的事情，對於已經寫得比較詳細的我就不再自己重新寫了，直接引用，希望原作者諒解（反正直接貼的網站，大概沒事吧~）主要是記一些自己碰到的坑實現登陸其實主要是用好那個cookiejar

在登入頁面點選登入之後頁面重定向了無數次，如何用Python 拿到重定向前的 cookie

關住公縱號 “ 阿蒙課程分享 ” 獲得學習資料及趣味分享　 # -*- coding:utf-8 -*- # author:murongtiedan # updatetime:2018/3/14 # 功能：爬蟲之模擬登入，urllib和requests都用

用Python登入好友QQ空間點贊

記得之前跟我女票說過，說要幫她空間點贊，點到999就不點了。剛開始還能天天記得，但是後來事情一多，就難免會忘記，前兩天點讚的時候忽然覺得這樣好枯燥啊，正好也在學Python，就在想能不能有什麼方法能自動點贊。以前學C藉助win32API也幹過操作其他應用

記錄一個不同的流媒體網站實現方法，和用Python爬蟲爬它的坑

今天找到一片電影，想把它下載下來。先開Networks工具分析一下：初步分析發現，視訊載入時會拉取TS格式的檔案，推測這是一個m3u8的索引，記錄著幾百段TS檔案，這樣方便快進時載入。但是實際分析m3u8檔案時，發現這並不是一個有效的索引檔案，應該只是載入一個形式，實際的h

R 調用 python

比較 ons 類庫 app 表示開發 task 發現傳遞　　上一篇說了python使用 rpy2 調用 R，這裏介紹R如何調用python。R的強項在於統計方面，尤其是專業的統計分析，統計檢驗以及作圖功能十分強大，但是在通用性方面，就遠不如Python了，比如pyth

用python檢索漢字的坑點

相關推薦