Spark-特徵抽取（TF-IDF）

阿新 • • 發佈：2019-01-12

Spark特徵抽取，基於scala實現TF-IDF例項。
特徵抽取：從原始資料中抽取特徵。

TF-IDF原理

TF-IDF（term frequency–inverse document frequency）是一種用於資訊檢索與資訊探勘的常用加權技術, TFIDF的主要思想是：如果某個詞或短語在一篇文章中出現的頻率TF高，並且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。TFIDF實際上是：TF * IDF，TF詞頻(Term Frequency)，IDF反文件頻率(Inverse Document Frequency)。TF表示詞條在文件d中出現的頻率。IDF的主要思想是：如果包含詞條t的文件越少，也就是n越小，IDF越大，則說明詞條t具有很好的類別區分能力。如果某一類文件C中包含詞條t的文件數為m，而其它類包含t的文件總數為k，顯然所有包含t的文件數n=m + k，當m大的時候，n也大，按照IDF公式得到的IDF的值會小，就說明該詞條t類別區分能力不強。但是實際上，如果一個詞條在一個類的文件中頻繁出現，則說明該詞條能夠很好代表這個類的文字的特徵，這樣的詞條應該給它們賦予較高的權重，並選來作為該類文字的特徵詞以區別與其它類文件。這就是IDF的不足之處。

具體的定義

假設t表示一個詞，d表示一片文件，D是語料庫中文件總數。
詞頻TF(t,d)是某個詞t在文件d中出現的次數。
文件頻率DF(t,D)是包含詞t的文件d的數目。
如果我們僅使用詞頻來衡量重要性，則很容易過分強調那些出現非常頻繁但攜帶很少與文件相關資訊量的詞。
比如英語中的“a”、“the”和“of”。如果一個詞在在語料庫中出現非常頻繁，意味著它更不能攜帶特定文件的特定資訊。逆文件頻率就是一個用於度量一個詞能提供多少資訊量的數值：

IDF(t,D)=log |D|/(DF(t,D)+1)

TFIDF(t,d,D)=TF(t,d)×IDF(t,D)

在SparkML庫中，TF-IDF被分為兩部分：TF和IDF

TF：HashingTF 是一個Transformer，在文字處理中，接收詞條的集合然後把這些集合轉化成固定長度的特徵向量。這個演算法在雜湊的同時會統計各個詞條的詞頻。
IDF：IDF是一個Estimator，在一個數據集上應用它的fit（）方法，產生一個IDFModel。該IDFModel 接收特徵向量（由HashingTF產生），然後計算每一個詞在文件中出現的頻次。IDF會減少那些在語料庫中出現頻率較高的詞的權重。

具體的Spark例項

tfidf.txt的檔案如下：

i heard about spark and i love spark
i wish java could use case 
 classes
logistic regression models are neat

例項程式碼如下：

package FeatureExtractionAndTransformation

import org.apache.spark.mllib.feature.{IDF, HashingTF}
import org.apache.spark.{SparkContext, SparkConf}

/**
 * Created by xudong on 2017/5/24.
 */
object TFIDFLearning {

  /**
   * TF-IDF是一種簡單的文字特徵提取演算法
   * 詞頻tf：某個關鍵詞在文字中出現的次數
   * 逆文件頻率idf：大小與一個詞的常見程度成反比
   * tf=某個詞在文章中出現的次數/文章的總詞數
   * idf=log(查詢的文章總數/(包含該詞的文章數+1))
   * tf-idf=tf * idf
   * 未考慮去除停用詞（輔助詞副詞介詞等）和語義重構（資料探勘，資料結構 =》資料，挖掘；資料，結構  50%）
   *
   */

  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("tf-idfExamples").setMaster("local")
    val sc=new SparkContext(conf)

    //載入文件(one per line)一行是一個文件
    val documents=sc.textFile("e:/tfidf.txt").map(_.split(" ").toSeq)

    //HashingTF是一個Transformer，文字處理中接收詞條的集合然後把這些集合轉換成固定長度的特徵向量
    //這個演算法在雜湊的同時會統計各個詞條的詞頻
    val hashingTF=new HashingTF()
    val tf=hashingTF.transform(documents)

    tf.cache()
    //idf是一個Estimator，在一個數據集上應用fit方法，產生一個IDFModel
    //該IDFModel接收特徵向量（由HashingTF產生），然後計算每一個詞在文件中出現的頻次
    //IDF會減少那些在語料庫中出現頻率較高的詞的權重。

    /**
     * Spark.mllib 中實現詞頻率統計使用特徵hash的方式，原始特徵通過hash函式，對映到一個索引值。
     * 後面只需要統計這些索引值的頻率，就可以知道對應詞的頻率。
     * 這種方式避免設計一個全域性1對1的詞到索引的對映，這個對映在對映大量語料庫時需要花費更長的時間。
     * 但需要注意，通過hash的方式可能會對映到同一個值的情況，即不同的原始特徵通過Hash對映後是同一個值。
     * 為了降低這種情況出現的概率，我們只能對特徵向量升維。
     * i.e., 提高hash表的桶數，預設特徵維度是 2^20 = 1,048,576.
     */

     tf.foreach(println)

    /**
     * (1048576,[105,96727,182130,336781,585782,586461],[2.0,1.0,1.0,1.0,1.0,2.0])
     * (1048576,[105,79910,109090,116103,479425,503975,949040],[1.0,1.0,1.0,1.0,1.0,1.0,1.0])
     * (1048576,[96852,225888,231466,491585,748138],[1.0,1.0,1.0,1.0,1.0])
     * tf 的輸出值 1048576表示的是hash表的桶數（預設值）
     * 105，96727等代表單詞的hash值，後面是出現的次數
     */

    val idf=new IDF().fit(tf)
    val tfidf =idf.transform(tf)

    println("tfidf: ")
    tfidf.foreach(x => println(x))

  /**tdidf--結果輸出
     * (1048576,[105,96727,182130,336781,585782,586461],[0.5753641449035617,0.6931471805599453,0.6931471805599453,0.6931471805599453,0.6931471805599453,1.3862943611198906])
     * (1048576,[105,79910,109090,116103,479425,503975,949040],[0.28768207245178085,0.6931471805599453,0.6931471805599453,0.6931471805599453,0.6931471805599453,0.6931471805599453,0.6931471805599453])
     * (1048576,[96852,225888,231466,491585,748138],[0.6931471805599453,0.6931471805599453,0.6931471805599453,0.6931471805599453,0.6931471805599453])
     */
//後面的數值是每個單詞的在各文件的tfidf值

    //支援忽略詞頻低於文件最小數，需要把minDocFreq這個數傳給IDF函式。
    // 在此情況下，對應的IDF值設定為0
/*  val idfIgnore=new IDF(minDocFreq = 2).fit(tf)
    val idfIgnore=new IDF(minDocFreq = 2).fit(tf)
    val tfidfIgnore=idfIgnore.transform(tf)
    println("tfidfIgnore: ")
    tfidfIgnore.foreach(x => println(x))
*/

    sc.stop()
  }
}

Spark-特徵抽取（TF-IDF）

Spark-特徵抽取（TF-IDF）

三種文字特徵提取（TF-IDF/Word2Vec/CountVectorizer）

文本分類學習（三）特征權重（TF/IDF）和特征提取

機器學習——文字分類（TF-IDF）

《數學之美》第11章—如何確定網頁和查詢的相關性（TF-IDF演算法）

【NLP】【三】jieba原始碼分析之關鍵字提取（TF-IDF/TextRank）

NLP----關鍵詞提取演算法（TextRank,TF/IDF）

用Python開始機器學習（5：文字特徵抽取與向量化）

關鍵詞提取方法學習總結（TF-IDF、Topic-model、RAKE）

[轉]搜尋引擎的文件相關性計算和檢索模型（BM25/TF-IDF）

用Python開始機器學習（5：文字特徵抽取與向量化） sklearn

Spark-特徵選擇（scala）

spark HelloWorld程序（scala版）

Spark入門1（WordCount實現）

Spark筆記整理（十二）：日誌記錄與監控

斯坦福大學-自然語言處理入門筆記第十課關係抽取（relation extraction）

斯坦福大學-自然語言處理入門筆記第九課資訊抽取（information extraction）

Spark環境搭建（多種模式）

【Spark】Ubuntu16.04 spark 叢集安裝（standalone模式）

利用Inception-v3現成權重進行特徵提取（影象識別）

Spark-特徵抽取（TF-IDF）

相關推薦