大資料及人工智慧基礎系列3 文字挖掘的TF-IDF計算

文章來源：http://blog.csdn.net/eastmount/article/details/50323063

在文字聚類、文字分類或者比較兩個文件相似程度過程中，可能會涉及到TF-IDF值的計算。這裡主要講述基於Python的機器學習模組和開源工具：scikit-learn。

一.Scikit-learn概念
- 1.概念知識
- 2.安裝軟體
二.TF-IDF基礎知識
- 1.TF-IDF
- 2.舉例介紹
三.TF-IDF呼叫兩個方法
- 1.CountVectorizer
- 2.TfidfTransformer
- 3.別人示例

一. Scikit-learn概念

1.概念知識

Scikit-learn是一個用於資料探勘和資料分析的簡單且有效的工具，它是基於Python的機器學習模組，基於BSD開源許可證。

Scikit-learn的基本功能主要被分為六個部分：分類(Classification)、迴歸(Regression)、聚類(Clustering)、資料降維(Dimensionality reduction)、模型選擇(Model selection)、資料預處理(Preprocessing)。
Scikit-Learn中的機器學習模型非常豐富，包括SVM，決策樹，GBDT，KNN等等，可以根據問題的型別選擇合適的模型，具體可以參考官網文件，推薦大家從官網中下載資源、模組、文件進行學習。

2.安裝軟體

Python 2.0我推薦使用"pip install scikit-learn"或"easy_install scikit-learn"全自動安裝，再通過"from sklearn import feature_extraction"匯入。
安裝時如果出現錯誤"unknown encoding: cp65001"，輸入"chcp 936"將編碼方式由utf-8變為簡體中文gbk。

二. TF-IDF基礎知識

1.TF-IDF

TF-IDF（Term Frequency-InversDocument Frequency）是一種常用於資訊處理和資料探勘的加權技術。該技術採用一種統計方法，根據字詞的在文字中出現的次數和在整個語料中出現的文件頻率來計算一個字詞在整個語料中的重要程度。它的優點是能過濾掉一些常見的卻無關緊要本的詞語，同時保留影響整個文字的重要字詞。計算方法如下面公式所示。

其中，式中tfidf_i，j表示詞頻tf_i,j和倒文字詞頻idf_i的乘積。TF-IDF值越大表示該特徵詞對這個文字的重要性越大。

TF（Term Frequency）表示某個關鍵詞在整篇文章中出現的頻率。
IDF（InversDocument Frequency）表示計算倒文字頻率。文字頻率是指某個關鍵詞在整個語料所有文章中出現的次數。倒文件頻率又稱為逆文件頻率，它是文件頻率的倒數，主要用於降低所有文件中一些常見卻對文件影響不大的詞語的作用。
下面公式是TF詞頻的計算公式。

其中，n_i,j為特徵詞t_i在文字d_j中出現的次數，是文字d_j中所有特徵詞的個數。計算的結果即為某個特徵詞的詞頻。
下面公式是IDF的計算公式。

其中，|D|表示語料中文字的總數，表示文字中包含特徵詞t_i的數量。為防止該詞語在語料庫中不存在，即分母為0，則使用作為分母。

2.示例

下面通過一個示例進行講解TF-IDF權重計算的方法。
假設現在有一篇文章《貴州的大資料分析》，這篇文章包含了10000個片語，其中“貴州”、“大資料”、“分析”各出現100次，“的”出現500次（假設沒有去除停用詞），則通過前面TF詞頻計算公式，可以計算得到三個單詞的詞頻，即：

現在預料庫中共存在1000篇文章，其中包含“貴州”的共99篇，包含“大資料”的共19篇，包含“分析”的共“59”篇，包含“的”共“899”篇。則它們的IDF計算如下：

由IDF可以發現，當某個詞在語料庫中各個文件出現的次數越多，它的IDF值越低，當它在所有文件中都出現時，其IDF計算結果為0，而通常這些出現次數非常多的詞或字為“的”、“我”、“嗎”等，它對文章的權重計算起不到一定的作用。
同時計算TF-IDF值如下：

通過TF-IDF計算，“大資料”在某篇文章中出現頻率很高，這就能反應這篇文章的主題就是關於“大資料”方向的。如果只選擇一個詞，“大資料”就是這篇文章的關鍵詞。所以，可以通過TF-IDF方法統計文章的關鍵詞。同時，如果同時計算“貴州”、“大資料”、“分析”的TF-IDF，將這些詞的TF-IDF相加，可以得到整篇文件的值，用於資訊檢索。
TF-IDF演算法的優點是簡單快速，結果比較符合實際情況。缺點是單純以詞頻衡量一個詞的重要性，不夠全面，有時重要的詞可能出現次數並不多。而且，這種演算法無法體現詞的位置資訊。

三. TF-IDF計算

Scikit-Learn中TF-IDF權重計算方法主要用到兩個類：CountVectorizer和TfidfTransformer。

1.CountVectorizer

CountVectorizer類會將文字中的詞語轉換為詞頻矩陣，例如矩陣中包含一個元素a[i][j]，它表示j詞在i類文字下的詞頻。它通過fit_transform函式計算各個詞語出現的次數，通過get_feature_names()可獲取詞袋中所有文字的關鍵字，通過toarray()可看到詞頻矩陣的結果。
程式碼如下：

# coding:utf-8
from sklearn.feature_extraction.text import CountVectorizer
#語料
corpus = [
'This is the first document.',
'This is the second second document.',
'And the third one.',
'Is this the first document?',
]
#將文字中的詞語轉換為詞頻矩陣
vectorizer = CountVectorizer()
#計算個詞語出現的次數
X = vectorizer.fit_transform(corpus)
#獲取詞袋中所有文字關鍵詞
word = vectorizer.get_feature_names()
print word
#檢視詞頻結果
print X.toarray()

輸出如下所示：

>>>
[u'and', u'document', u'first', u'is', u'one', u'second', u'the', u'third', u'this']
[[011100101]
[010102101]
[100010110]
[011100101]]
>>>

從結果中可以看到，總共包括9個特徵詞，即：
[u'and', u'document', u'first', u'is', u'one', u'second', u'the', u'third', u'this']
同時在輸出每個句子中包含特徵詞的個數。例如，第一句“This is the first document.”，它對應的詞頻為[0, 1, 1, 1, 0, 0, 1, 0, 1]，假設初始序號從1開始計數，則該詞頻表示存在第2個位置的單詞“document”共1次、第3個位置的單詞“first”共1次、第4個位置的單詞“is”共1次、第9個位置的單詞“this”共1詞。所以，每個句子都會得到一個詞頻向量。

2.TfidfTransformer

TfidfTransformer用於統計vectorizer中每個詞語的TF-IDF值。具體用法如下：

# coding:utf-8
from sklearn.feature_extraction.text import CountVectorizer
#語料
corpus = [
'This is the first document.',
'This is the second second document.',
'And the third one.',
'Is this the first document?',
]
#將文字中的詞語轉換為詞頻矩陣
vectorizer = CountVectorizer()
#計算個詞語出現的次數
X = vectorizer.fit_transform(corpus)
#獲取詞袋中所有文字關鍵詞
word = vectorizer.get_feature_names()
print word
#檢視詞頻結果
print X.toarray()
from sklearn.feature_extraction.text import TfidfTransformer
#類呼叫
transformer = TfidfTransformer()
print transformer
#將詞頻矩陣X統計成TF-IDF值
tfidf = transformer.fit_transform(X)
#檢視資料結構 tfidf[i][j]表示i類文字中的tf-idf權重
print tfidf.toarray()

輸出結果入下所示：

3.別人示例

如果需要同時進行詞頻統計並計算TF-IDF值，則使用核心程式碼：
  vectorizer=CountVectorizer()
  transformer=TfidfTransformer()
  tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))
下面給出一個liuxuejiang158大神的例子，供大家學習，推薦大家閱讀原文：
python scikit-learn計算tf-idf詞語權重 - liuxuejiang

# coding:utf-8
__author__ = "liuxuejiang"
import jieba
import jieba.posseg as pseg
import os
import sys
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
if __name__ == "__main__":
corpus=["我來到北京清華大學",#第一類文字切詞後的結果，詞之間以空格隔開
"他來到了網易杭研大廈",#第二類文字的切詞結果
"小明碩士畢業與中國科學院",#第三類文字的切詞結果
"我愛北京天安門"]#第四類文字的切詞結果
vectorizer=CountVectorizer()#該類會將文字中的詞語轉換為詞頻矩陣，矩陣元素a[i][j] 表示j詞在i類文字下的詞頻
transformer=TfidfTransformer()#該類會統計每個詞語的tf-idf權值
tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))#第一個fit_transform是計算tf-idf，第二個fit_transform是將文字轉為詞頻矩陣
word=vectorizer.get_feature_names()#獲取詞袋模型中的所有詞語
weight=tfidf.toarray()#將tf-idf矩陣抽取出來，元素a[i][j]表示j詞在i類文字中的tf-idf權重
for i in range(len(weight)):#列印每類文字的tf-idf詞語權重，第一個for遍歷所有文字，第二個for便利某一類文字下的詞語權重
print u"-------這裡輸出第",i,u"類文字的詞語tf-idf權重------"
for j in range(len(word)):
print word[j],weight[i][j]