1. 程式人生 > >01 文本分析隨記

01 文本分析隨記

tro 相似度 百度搜索 提取 文本分析 多次 2.4 符號 正是

一、停用詞

1、含義:在語料中大量出現,但對我們分析沒什麽用的詞,但對分析有幹擾作用,需要剔除後再計算詞頻;比如:標點符號,量詞等

2、停用詞表百度搜索就有一堆了

二、TF-IDF

前言:

比如對《中國的蜜蜂養殖》進行詞頻統計,去掉停用詞後計算詞頻發現“中國”、“蜜蜂“、“養殖” 三個詞出現的次數一樣多,但重要性一樣嗎?“中國”常見,但“蜜蜂“、“養殖” 不常見,對此案例來說,“蜜蜂“、“養殖” 更重要

定義:

TF:詞頻的縮寫

IDF:逆文檔頻率; 如果某個詞比較少見,但是它在這篇文章中多次出現,那麽它很可能就反映了這篇文檔的特性,這正是我們需要的關鍵詞

計算公式:TF - IDF=詞頻(TF)* 逆文檔頻率(IDF) ( 該值越大,說明越重要 )

-- 詞頻(TF)= 某個詞在文章中出現的次數 / 該文所有詞出現的次數總和

-- 逆文檔頻率 ( IDF )= log( 語料庫的文檔總數 / ( 包含該詞的文檔數 + 1) )

舉例:

《中國蜜蜂養殖》:假定該文有1000個詞,“中國”、“蜜蜂“、“養殖” 各出現20次,則這三個詞的T F為0.02;

搜索Google發現,包含“的”字的網頁共有250億張,假定這就是中文網頁總數,包含“中國”的網頁共有62.3億張,包含“蜜蜂”的網頁為0.484億張,包含“養殖”的網頁為0.973億張

進行TF-IDF關鍵詞提取:TF - IDF=詞頻(TF)* 逆文檔頻率(IDF) ( 該值越大,說明越重要 )

包含該詞的文檔數(億) IDF TF-IDF
中國 62.3 0.603 0.0121
蜜蜂 0.484 2.713 0.0543
養殖 0.973 2.410 0.0482

三、文本相似度(常用余弦相似度)

步驟

1、原始句子:

句子A:我喜歡看電視,不喜歡看電影

句子B:我不喜歡看電視,也不喜歡看電影

2、分詞:

句子A:我/喜歡/看/電視/,/不/喜歡/看/電影

句子B:我/不/喜歡/看/電視/,/也/不/喜歡/看/電影

3、提取語料庫(詞典):我,喜歡,看,電視,電影,不,也

4、計算詞頻:(計算句子裏出現語料庫裏詞的次數)

句子A:我1,喜歡2,看2,電視1,電影1,不1,也0

句子B:我1,喜歡2,看2,電視1,電影1,不2,也1

5、轉為詞頻向量:

句子A:[1,2,2,1,1,1,0]

句子B:[1,2,2,1,1,2,1]

01 文本分析隨記