TF-IDF關鍵詞提取方法的學習

阿新 • • 發佈：2019-01-01

首先引用一下百度百科裡的解釋：

TF-IDF（term frequency–inverse document frequency）是一種用於資訊檢索與資料探勘的常用加權技術。TF意思是詞頻(Term Frequency)，IDF意思是逆向檔案頻率(Inverse Document Frequency)。

最近學習了阮一峰先生關於TF-IDF演算法的講解，受益匪淺，特記錄一下學習的過程。

TF，即某個詞在某篇文章中出現的總次數，但出現的多的詞，不一定是最重要的，如之乎者也類的<是>，<也>，<的>，<好>等，這類詞不能幫助我們去找到文章的旨意，是需要濾除掉的詞，被稱為“停用詞”。

此外，在一篇文章中，出現次數一樣的詞，重要性也不一定一樣，如在一篇介紹感冒和發燒是否相關的醫學類文獻裡，可能“感冒”、“發燒”、“生病”出現的頻次是一樣的，但是“生病”明顯不能用於探索該文獻的主旨，因此重要性程度，遠小於其他2個詞。

因此，需要引入一個重要性調整引數，用於辨別某個詞是否為常用詞。一個很好解釋的場景是：如果一個詞特別少見，但在某篇文章中出現的次數非常多，那麼它就最能體現出這篇文章的特徵，被認為是該篇文章的關鍵詞。

用統計學的語言表述，就是在詞頻的基礎上，對每一個詞分配一個“重要性”權重。

在上述這個場景中，之乎者也類的<是>，<也>，<的>，<好>的需要分配一個極小權重，較常見的“生病”需要分配一個較小的權重，而較少出現的詞“感冒”，“發燒”（這兩個詞也較為常見，用在這裡只是說明其相對於其他停用詞，和特常見的詞，顯得比較稀缺）。這樣一種權重概念即稱為 IDF （逆文件頻率）。

而TF-IDF是詞頻與逆文件頻率的乘積，即：

TF-IDF = TF * IDF

其中：

TF = 一個詞在文章中的出現次數 / 文章的總詞數

IDF = log（語料庫中的文件總數 / 某個詞在某篇文章中出現的次數）

注：

-----------------------------------------------------

語料庫：

指經科學取樣和加工的大規模電子文字庫。藉助計算機分析工具，研究者可開展相關的語言理論及應用研究。

由此可見，TF-IDF的大小與 “一個詞在文章中的出現次數” 成正比，與其“在語料庫中的存在次數”成反比。

參考自：

http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

http://www.ruanyifeng.com/blog/algorithm/ -- 演算法講解