1.4 Python基本程式設計解析(下)
阿新 • • 發佈:2019-01-07
1. import的三種用法
方法一:
import <庫名>
<庫名>.<函式名>(<函式引數>)
或
import <庫名1>,<庫名2>
適合簡單庫名情況
方法二:
from <庫名> import <函式名>
或
from <庫名> import *
<函式名>(<函式引數>)
混合名稱空間,適合極少庫使用情況
方法三:
import <庫名> as <庫別名>
< 庫別名>.<函式名>(<函式引數>)
適合複雜庫名情況
2. jieba中文分詞庫
2.1 jieba庫概述
jieba是優秀的中文分詞第三方庫
- 對中文文字進行分詞操作,產生包含產生詞語的列表
- jieba是第三方庫,需要額外安裝
2.2 jieba庫使用
函式 | 描述 |
---|---|
jieba.lcut(s) |
精確模式,返回字串s對應的一個列表型別分詞結果>>> jieba.lcut("中國是一個偉大的國家") ['中國', '是', '一個', '偉大', '的', '國家'] |
jieba.lcut(s,cut_all=True) |
全模式,返回字串s對應的一個列表型別分詞結果,存在冗餘>>> jieba.lcut("中國是一個偉大的國家",cut_all = True) ['中國', '國是', '一個', '偉大', '的', '國家'] |
jieba.add_word(w) |
向分詞詞典增加新詞w>>>jiba.add_word("蟒蛇語言") |
3. 計算生態程式設計
3.1 利用Python龐大的計算生態提高程式設計產量
- 除了Python語法外,要熟練掌握一批Python庫的使用
- 對於某些”通用問題“,學會去尋找Python庫
- http://pypi.org
3.2 圍繞Python計算生態完成程式設計功能
- 結合Python計算生態中較重要的框架,完成程式設計任務
- 例如:結合PyTorch開展深度學習應用
- 例如:結合Scrapy框架編寫爬蟲應用
3.3 構建Python庫,豐富Python計算生態
- 對於新的理解和認識,構架Python計算生態
- 底層可以利用C/C++等語言實現,給予Python介面
例項3:中文分詞統計
程式需求
統計中文詞語出現次數
- 以三國演義為例,統計出現的中文詞語數量
- 按照一定標準輸出,如出現次數等
- 需要解決中文分詞問題,如:這是一門好課 -> 這是 一門 好課
- 輸入:threekingdoms.txt
- 輸出:出現超過50次的詞語,不包括換行
# WordsCount.py
import jieba
f = open("threekingdoms.txt","r",encoding = "utf-8")
txt = f.read() # 把檔案內容以文字形式讀入
f.close()
ls = jieba.lcut(txt) # 中文分詞產生結果儲存為列表型別
d = {} # 建立一個空字典-鍵值對的集合
# 建立每個單詞與出現次數的鍵值對
for w in ls:
d[w] = d.get(w,0) + 1
# 遍歷結果,設定條件,列印輸出
for k in d: # k為字典d中每一個鍵
if d[k] >= 50 and k != "\n":
print('"{}"出現{}次'.format(k,d[k]))