01 文本分析隨記
一、停用詞
1、含義:在語料中大量出現,但對我們分析沒什麽用的詞,但對分析有幹擾作用,需要剔除後再計算詞頻;比如:標點符號,量詞等
2、停用詞表百度搜索就有一堆了
二、TF-IDF
前言:
比如對《中國的蜜蜂養殖》進行詞頻統計,去掉停用詞後計算詞頻發現“中國”、“蜜蜂“、“養殖” 三個詞出現的次數一樣多,但重要性一樣嗎?“中國”常見,但“蜜蜂“、“養殖” 不常見,對此案例來說,“蜜蜂“、“養殖” 更重要
定義:
TF:詞頻的縮寫
IDF:逆文檔頻率; 如果某個詞比較少見,但是它在這篇文章中多次出現,那麽它很可能就反映了這篇文檔的特性,這正是我們需要的關鍵詞
計算公式:TF - IDF=詞頻(TF)* 逆文檔頻率(IDF) ( 該值越大,說明越重要 )
-- 詞頻(TF)= 某個詞在文章中出現的次數 / 該文所有詞出現的次數總和
-- 逆文檔頻率 ( IDF )= log( 語料庫的文檔總數 / ( 包含該詞的文檔數 + 1) )
舉例:
《中國蜜蜂養殖》:假定該文有1000個詞,“中國”、“蜜蜂“、“養殖” 各出現20次,則這三個詞的T F為0.02;
搜索Google發現,包含“的”字的網頁共有250億張,假定這就是中文網頁總數,包含“中國”的網頁共有62.3億張,包含“蜜蜂”的網頁為0.484億張,包含“養殖”的網頁為0.973億張
進行TF-IDF關鍵詞提取:TF - IDF=詞頻(TF)* 逆文檔頻率(IDF) ( 該值越大,說明越重要 )
包含該詞的文檔數(億) | IDF | TF-IDF | |
中國 | 62.3 | 0.603 | 0.0121 |
蜜蜂 | 0.484 | 2.713 | 0.0543 |
養殖 | 0.973 | 2.410 | 0.0482 |
三、文本相似度(常用余弦相似度)
步驟
1、原始句子:
句子A:我喜歡看電視,不喜歡看電影
句子B:我不喜歡看電視,也不喜歡看電影
2、分詞:
句子A:我/喜歡/看/電視/,/不/喜歡/看/電影
句子B:我/不/喜歡/看/電視/,/也/不/喜歡/看/電影
3、提取語料庫(詞典):我,喜歡,看,電視,電影,不,也
4、計算詞頻:(計算句子裏出現語料庫裏詞的次數)
句子A:我1,喜歡2,看2,電視1,電影1,不1,也0
句子B:我1,喜歡2,看2,電視1,電影1,不2,也1
5、轉為詞頻向量:
句子A:[1,2,2,1,1,1,0]
句子B:[1,2,2,1,1,2,1]
01 文本分析隨記