1. 程式人生 > >獲得文本語料和詞匯資源

獲得文本語料和詞匯資源

mil 數值 簡單的 style 序列 沒有 數據 劃分 方法

語料庫的訪問方法:

raw( ) 沒有經過任何語言學處理之前把文件內容分析出來

words( ) 把文本處理成一個個單詞

sents( ) 把文本劃分成語句,其中每一個句子都是一個詞匯鏈表

註意: 數值比較: == 單詞比較: =

條件頻率分布

條件頻率分布是一個對許多NLP都有用的數據結構。

頻率分布計算觀察到的事件,如詞匯。條件頻率分布需要給每個事件關聯一個條件,所以處理的不是一個詞序列,而是一系列的配對序列。

常用方法:

FreqDist( ) : 以一個簡單的鏈表作為輸入

ConditionalFreqDist( ) : 以一個配對鏈表作為輸入 從配對鏈表中創建條件頻率分布

tabulate( ) : 參數 conditions 指定顯示哪些條件, samples 限制要顯示的樣本

為條件頻率分布制表

plot( ) : 為條件頻率分布繪圖

bigrams( ) : 接受一個詞匯鏈表,並建立起一個連續的詞對鏈表

conditions( ) : 將條件按字母排序來分類

獲得文本語料和詞匯資源