1. 程式人生 > >貝葉斯_文字分析

貝葉斯_文字分析

一、文字關鍵詞提取

1、過濾掉文字中出現的停用詞

停用詞:指與文章主題不相干的詞,符號等。表現在:1、文字中大量出現;2、與主旨不相關;3、對於分析文字沒用處

 

2、TF-IDF決定關鍵詞

(1)首先進行詞頻(Term Frequency,TF),IDF,TF-IDF統計

TF-IDF統計方法用於評估某字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的重要性隨著它在檔案中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。主要思想:如果某一字詞在一片文章中出現的平率TF越高,在其他文章中很少出現,則認為此字詞具有很好的類別區分能力

     IDF: Inverse Document Frequency 逆文字頻率

     IDF是TF的倒數,如果包含字詞t的文件越少,IDF越大

     IDF不足:如果某一類文件C中包含詞條t的文件數為m,而其它類包含t的文件總數為k,顯然所有包含t的文件數n=m+k,當m大的時候,n也大,按照IDF公式得到的IDF的值會小,就說明該詞條t類別區分能力不強,但是實際上,如果一個詞條在一個類的文件中頻繁出現,在其他文件中出現的較少,則說明該詞條能夠很好代表這個類的文字的特徵,這樣的詞條應該給它們賦予較高的權重,並選來作為該類文字的特徵詞以區別與其它類文件。

    TF=某詞在文章中出現次數/該文章中子詞的總數

    IDF=log(語料庫中的文件總數/包含該詞的文件數+1)

    TF-IDF=TF*IDF 值越大,該字詞越關鍵

(2)根據TF-IDF值,選擇出關鍵字 

 未完待續