01 文本分析隨記

阿新 • • 發佈：2019-01-19

tro 相似度百度搜索提取文本分析多次 2.4 符號正是

一、停用詞

1、含義：在語料中大量出現，但對我們分析沒什麽用的詞，但對分析有幹擾作用，需要剔除後再計算詞頻；比如：標點符號，量詞等

2、停用詞表百度搜索就有一堆了

二、TF-IDF

前言：

比如對《中國的蜜蜂養殖》進行詞頻統計，去掉停用詞後計算詞頻發現“中國”、“蜜蜂“、“養殖” 三個詞出現的次數一樣多，但重要性一樣嗎？“中國”常見，但“蜜蜂“、“養殖” 不常見，對此案例來說，“蜜蜂“、“養殖” 更重要

定義：

TF：詞頻的縮寫

IDF：逆文檔頻率；如果某個詞比較少見，但是它在這篇文章中多次出現，那麽它很可能就反映了這篇文檔的特性，這正是我們需要的關鍵詞

計算公式：TF - IDF=詞頻（TF）* 逆文檔頻率（IDF） ( 該值越大，說明越重要 )

-- 詞頻（TF）= 某個詞在文章中出現的次數 / 該文所有詞出現的次數總和

-- 逆文檔頻率 ( IDF )= log( 語料庫的文檔總數 / ( 包含該詞的文檔數 + 1) )

舉例:

《中國蜜蜂養殖》：假定該文有1000個詞，“中國”、“蜜蜂“、“養殖” 各出現20次，則這三個詞的T F為0.02；

搜索Google發現，包含“的”字的網頁共有250億張，假定這就是中文網頁總數，包含“中國”的網頁共有62.3億張，包含“蜜蜂”的網頁為0.484億張，包含“養殖”的網頁為0.973億張

進行TF-IDF關鍵詞提取：TF - IDF=詞頻（TF）* 逆文檔頻率（IDF） ( 該值越大，說明越重要 )

	包含該詞的文檔數（億）	IDF	TF-IDF
中國	62.3	0.603	0.0121
蜜蜂	0.484	2.713	0.0543
養殖	0.973	2.410	0.0482

三、文本相似度（常用余弦相似度）

步驟

1、原始句子：

句子A：我喜歡看電視，不喜歡看電影

句子B：我不喜歡看電視，也不喜歡看電影

2、分詞：

句子A：我/喜歡/看/電視/,/不/喜歡/看/電影

句子B：我/不/喜歡/看/電視/,/也/不/喜歡/看/電影

3、提取語料庫（詞典）：我，喜歡，看，電視，電影，不，也

4、計算詞頻：（計算句子裏出現語料庫裏詞的次數）

句子A：我1，喜歡2，看2，電視1，電影1，不1，也0

句子B：我1，喜歡2，看2，電視1，電影1，不2，也1

5、轉為詞頻向量：

句子A：[1,2,2,1,1,1,0]

句子B：[1,2,2,1,1,2,1]

01 文本分析隨記

tro 相似度百度搜索提取文本分析多次 2.4 符號正是一、停用詞 1、含義：在語料中大量出現，但對我們分析沒什麽用的詞，但對分析有幹擾作用，需要剔除後再計算詞頻；比如：標點符號，量詞等 2、停用詞表百度搜索就有一堆了二、TF-IDF 前言：

01 文本分析隨記

01 文本分析隨記

文本分析示例文件

PAI文本分析實驗：常用文本分析組件及案例實戰

pynlpir + pandas 文本分析

Flv.js文件使用隨記

2017-5-17 分析文本

記不住就存下來---- HTML 5 文本格式化元素

文本情感分析的基礎在於自然語言處理、情感詞典、機器學習方法等內容。以下是我總結的一些資源。

html5 01 隨記

【Python】分析文本split()

python實例：三國演義TXT文本詞頻分析

Python數據分析8-----網頁文本處理

Vue資料繫結後文本閃爍問題分析及解決方案

實訓項目：基於TextCNN汽車行業評論文本的情感分析

學習筆記隨記-2019-01-01--01

C#代碼總結01---如何清空頁面上所有文本框的內容。（用於錄入後的清空）

隨性練習：python字典實現文本合並

201671010433王立新《英文文本統計分析》結對項目報告

201671030121王天悅《英文文本統計分析》結對項目報告

201671010405 杜娣《英文文本統計分析》結對項目報告

01 文本分析隨記

相關推薦