1. 程式人生 > >語言處理與Python

語言處理與Python

很基礎的程式碼就不寫了,只寫不好記的還有難點。
參考書籍《Python自然語言處理》

#python3
#連結串列連結起來組成單個字串
' '.join(['xiaochen','python'])
#'xiaochen python'

#字串分割為連結串列
'xiaochen python'.split()
#['xiaochen', 'python']

import nltk
nltk.download()可以下載到text1到text9共9篇文章
from nltk.book import *#匯入自然語言處理包

sorted()排序
FreqDist(text1)[w]#對text1中w字元進行出現頻率統計
set(text1)獲得詞彙表 text1.collocations()找出頻繁的雙聯詞(特別是在已知單個詞彙頻率的基礎上) fdist=FreqDist(samples)建立指定樣本的頻率分佈 fdist.keys() 以頻率遞減順序排列的樣本連結串列 sent7 來自text7的第一句話 [w for w in text if condition]模式:連結串列推導 len(set([word.lower() for word in text1 if word.isalpha()])) 進一步過濾所有非字母元素