Spark特徵提取---TF-IDF

阿新 • • 發佈：2019-02-03

詞頻（Term Frequency，縮寫為TF）

在一篇文件中出現次數最多的詞是----"的"、"是"、"在"----這一類最常用的詞。它們叫做"停用詞"（stop words），表示對找到結果毫無幫助、必須過濾掉的詞。

還有長度小於2大於10的，數字也過濾掉，根據詞性過濾，留下有實際意義的詞。

假設我們把它們都過濾掉了，只考慮剩下的有實際意義的詞。這樣又會遇到了另一個問題，我們可能發現出現次數一樣多的關鍵詞，它們的重要性是不一樣的。

所以，我們需要一個重要性調整係數，衡量一個詞是不是常見詞。如果某個詞比較少見，但是它在這篇文章中多次出現，那麼它很可能就反映了這篇文章的特性，正是我們所需要的關鍵詞。

用統計學語言表達，就是在詞頻的基礎上，要對每個詞分配一個"重要性"權重。最常見的詞給予最小的權重，較常見的詞給予較小的權重，較少見的詞給予較大的權重。這個權重叫做"逆文件頻率"（Inverse Document Frequency，縮寫為IDF），它的大小與一個詞的常見程度成反比。

知道了"詞頻"（TF）和"逆文件頻率"（IDF）以後，將這兩個值相乘，就得到了一個詞的TF-IDF值。某個詞對文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的幾個詞，就是這篇文章的關鍵詞。

第一步，計算詞頻。

考慮到文章有長短之分，為了便於不同文章的比較，進行"詞頻"標準化。

或者

第二步，計算逆文件頻率。

這時，需要一個語料庫（corpus），用來模擬語言的使用環境。

如果一個詞越常見，那麼分母就越大，逆文件頻率就越小越接近0。分母之所以要加1，是為了避免分母為0（即所有文件都不包含該詞）。log表示對得到的值取對數。

第三步，計算TF-IDF。

可以看到，TF-IDF與一個詞在文件中的出現次數成正比，與該詞在整個語言中的出現次數成反比。所以，自動提取關鍵詞的演算法就很清楚了，就是計算出文件的每個詞的TF-IDF值，然後按降序排列，取排在最前面的幾個詞。

除了自動提取關鍵詞，TF-IDF演算法還可以用於許多別的地方。比如，資訊檢索時，對於每個文件，都可以分別計算一組搜尋詞（"中國"、"蜜蜂"、"養殖"）的TF-IDF，將它們相加，就可以得到整個文件的TF-IDF。這個值最高的文件就是與搜尋詞最相關的文件。

TF-IDF演算法的優點是簡單快速，結果比較符合實際情況。缺點是，單純以"詞頻"衡量一個詞的重要性，不夠全面，有時重要的詞可能出現次數並不多。而且，這種演算法無法體現詞的位置資訊，出現位置靠前的詞與出現位置靠後的詞，都被視為重要性相同，這是不正確的。（一種解決方法是，對全文的第一段和每一段的第一句話，給予較大的權重。）

Spark特徵提取---TF-IDF

Spark特徵提取---TF-IDF

Spark-基於scala實現文章特徵提取(TF-IDF)

關鍵詞提取:TF-IDF

文字特徵選擇——TF-IDF演算法（Python3實現）

【Spark Mllib】TF-IDF&Word2Vec——文字相似度

特徵提取方法: one-hot 和 TF-IDF

特徵提取方法 one-hot和TF-IDF

使用spark TF-IDF特徵計算文章間相似度

Spark-特徵抽取（TF-IDF）

三種文字特徵提取（TF-IDF/Word2Vec/CountVectorizer）

短文字分析----基於python的TF-IDF特徵詞標籤自動化提取

特徵提取-計算tf-idf

基於TF-IDF的新聞標簽提取

文本分類學習（三）特征權重（TF/IDF）和特征提取

自然語言處理--TF-IDF（關鍵詞提取）

python 基於TF-IDF演算法的關鍵詞提取

關鍵詞提取演算法—TF/IDF演算法

Spark Mlib(四)用spark計算tf-idf值

【NLP】【三】jieba原始碼分析之關鍵字提取（TF-IDF/TextRank）

Python的jieba分詞及TF-IDF和TextRank 演算法提取關鍵字

Spark特徵提取---TF-IDF

相關推薦