1. 程式人生 > >Spark_Mllib系列之二———提取,轉化和特徵選擇

Spark_Mllib系列之二———提取,轉化和特徵選擇

Extracting, transforming and selecting features

這部分將會講到特徵的演算法,粗略的分為一下幾個部分:
這裡寫圖片描述

特徵的提取

TF-IDF
詞條頻率-逆向檔案頻率是一種被廣泛使用在文字提取的向量化特徵的方法,反映了一個詞條對一篇語料庫中的文章的重要性。條目表示為t,一篇文件表示為d,語料庫表示為D,詞條頻率TF(td)是詞條t出現在文件d中的次數,而文件頻率DF是包含這個詞條的文件數目,簡而言之就是多少篇文件包含這個詞條。如果我們僅僅用詞條頻率來估量重要程度,很容易偏重詞條經常出現但只有很少資訊的文件,比如“a”,”the”,和”of”,如果一個詞條經常出現在預料庫中,這意味著這個條目沒有特殊意義對於一個文件。反向文件頻率是隊一個詞條所攜帶的資訊量做數字化估量的方法:
這裡寫圖片描述