語言處理與Python
阿新 • • 發佈:2019-02-20
很基礎的程式碼就不寫了,只寫不好記的還有難點。
參考書籍《Python自然語言處理》
#python3
#連結串列連結起來組成單個字串
' '.join(['xiaochen','python'])
#'xiaochen python'
#字串分割為連結串列
'xiaochen python'.split()
#['xiaochen', 'python']
import nltk
nltk.download()可以下載到text1到text9共9篇文章
from nltk.book import *#匯入自然語言處理包
sorted()排序
FreqDist(text1)[w]#對text1中w字元進行出現頻率統計
set(text1)獲得詞彙表
text1.collocations()找出頻繁的雙聯詞(特別是在已知單個詞彙頻率的基礎上)
fdist=FreqDist(samples)建立指定樣本的頻率分佈
fdist.keys() 以頻率遞減順序排列的樣本連結串列
sent7 來自text7的第一句話
[w for w in text if condition]模式:連結串列推導
len(set([word.lower() for word in text1 if word.isalpha()])) 進一步過濾所有非字母元素