【機器學習】文字資料的向量化(TF-IDF)---樣本集例項講解+python實現

阿新 • • 發佈：2019-02-11

1.文字資料的向量化

1.1名詞解釋

CF：文件集的頻率，是指詞在文件集中出現的次數

DF：文件頻率，是指出現詞的文件數

IDF：逆文件頻率，idf = log(N/(1+df))，N為所有文件的數目，為了相容df=0情況，將分母弄成1+df。

TF：詞在文件中的頻率

TF-IDF：TF-IDF= TF*IDF

1.2文字資料樣本集

為了講解文字資料的向量化，假設我們有4個文字，所有文字一共有6個不同的詞，如下所示。

doc1	iphone	guuci	huawei	watch	huawei
doc2	huawei	watch	iphone	watch	iphone	gucci
doc3	skirt	skirt	skirt	flower
doc4	watch	watch	huawei

1.3計算彙總

iphone	watch	gucci	huawei	skirt	flower
doc1 TF	1/5	1/5	1/5	2/5	0	0
doc2 TF	2/6	2/6	1/6	1/6	0	0
doc3 TF	0	0	0	0	3/4	1/4
doc4 TF	0	2/3	0	1/3	0	0
DF 含詞的文件數	2	3	2	3	1	1
IDF 逆文件頻率 =log(N/(1+DF))	log(4/(1+2)) =log(4/3)	log(4/(1+3)) =log(4/4)	log(4/(1+2)) =log(4/3)	log(4/(1+3)) =log(4/4)	log(4/(1+1)) =log(4/2)	log(4/(1+1)) =log(4/2)
doc1 TFIDF	1/5*log(4/3)	1/5*log(4/4)	1/5*log(4/3)	2/5*log(4/4)	0	0
doc2 TFIDF	2/6*log(4/3)	2/6*log(4/4)	1/6*log(4/3)	1/6*log(4/4)	0	0
doc3 TFIDF	0	0	0	0	3/4*log(4/2)	1/4*log(4/2)
doc4TFIDF	0	2/3*log(4/4)	0	1/3*log(4/4)	0	0

1.4實現tf-idf

人肉完成，相對來說，tf-idf的實現還比較簡單。

# -*- coding: utf-8 -*-
"""
Author:蔚藍的天空tom
Talk is cheap, show me the code
Aim:實現文字型資料的TF-IDF向量化
"""
import numpy as np

from sklearn.feature_extraction.text import CountVectorizer  
from sklearn.feature_extraction.text import TfidfTransformer

def sklearn_tfidf():
    tag_list = ['iphone guuci huawei watch huawei',
                'huawei watch iphone watch iphone guuci',
                'skirt skirt skirt flower',
                'watch watch huawei']
    
    vectorizer = CountVectorizer() #將文字中的詞語轉換為詞頻矩陣  
    X = vectorizer.fit_transform(tag_list) #計算個詞語出現的次數
       
    transformer = TfidfTransformer()  
    tfidf = transformer.fit_transform(X)  #將詞頻矩陣X統計成TF-IDF值  
    print(tfidf.toarray())
    
def tfidf_alg():
    docs = np.array(['iphone guuci huawei watch huawei',
                     'huawei watch iphone watch iphone guuci',
                     'skirt skirt skirt flower',
                     'watch watch huawei'])
    
    words = np.array(['iphone', 'guuci', 'huawei', 'watch', 'skirt', 'flower'])
    #calc cf way1, 詞在文件中出現的個數
    cfs = []
    for e in docs:
       cf = [e.count(word) for word in words]
       cfs.append(cf)
    print('cfs way1:\n', np.array(cfs))
    
    #calc cf way2, 詞在文件中出現的個數
    cfs = []
    cfs.extend([e.count(word) for word in words] for e in docs)
    cfs = np.array(cfs)
    print('cfs way2:\n', cfs)
    
    #calc tf way1, 詞在文件中的頻率
    tfs = []
    for e in cfs:
        tf = e/(np.sum(e))
        tfs.append(tf)
    print('tfs way1:\n', np.array(tfs))

    #calc tf way2, 詞在文件中的頻率
    tfs = []
    tfs.extend(e/(np.sum(e)) for e in cfs)#不能使用append()
    print('tfs:\n',np.array(tfs))
    
    #calc df way1, 包含詞的文件個數
    dfs = list(np.zeros(words.size, dtype=int))
    for i in range(words.size):
        for doc in docs:
            if doc.find(words[i]) != -1:
                dfs[i] += 1
    print('calc df way1:', dfs)
    
    #calc df way2, 包含詞的文件個數
    dfs = []
    for i in range(words.size):
        oneHot = [(doc.find(words[i]) != -1 and 1 or 0) for doc in docs]        
        dfs.append(oneHot.count(1))
        #print('word',words[i],'df:',oneHot.count(1))
    print('calc df way2:', dfs)
    
    #calc df way3, 包含文辭的文件個數
    dfs, oneHots = [],[]
    for word in words:
        oneHots.append([(e.find(word) != -1 and 1 or 0) for e in docs])
    dfs.extend(e.count(1) for e in oneHots)
    print('calc oneHots way3:', np.array(oneHots))
    print('calc df way3:', dfs)
    
    #calc df way4, 包含詞的文件個數
    dfs = []
    oneHots = [[doc.find(word) != -1 and 1 or 0 for doc in docs] for word in words]
    dfs.extend(e.count(1) for e in oneHots)
    print('calc oneHots way4:', np.array(oneHots))
    #dfs = np.reshape(dfs, (np.shape(dfs)[0],1)) #列向量1×n
    #print('calc df way4:', dfs)
    
    #calc idf, 計算每個詞的idf(逆向檔案頻率inverse document frequency)
    #log10(N/(1+DF))
    N = np.shape(docs)[0]
    idfs = [(np.log10(N*1.0/(1+e))) for e in dfs]#f(e) = np.log10(N*1.0/(1+e))
    print('idfs:',np.array(idfs))
    
    #calc tf-idf,計算term frequency - inverse document frequency
    tfidfs = []
    for i in range(np.shape(docs)[0]):
        word_tfidf = np.multiply(tfs[i], idfs)
        tfidfs.append(word_tfidf)
        #print('word_tfidf:',word_tfidf)
    print('calc tfidfs:\n', np.array(tfidfs))
    
    print('==================result============================')
    print('\ndocs:\n', np.array(docs))
    
    print('\nwords:\n', np.array(words))
    
    print('\noneHots:\n', np.array(oneHots))
    
    print('\nCF:\n', np.array(cfs))
    
    print('\nTF:\n', np.array(tfs))
    
    print('\nDF:\n', np.array(dfs))
    
    print('\nIDF:\n', np.array(idfs))
    
    print('\nTF-IDF:\n', np.array(tfidfs))
    print('==============================================')
    return    

if __name__=='__main__':
    tfidf_alg()
    #sklearn_tfidf()

1.5執行結果

==================result============================

docs:
 ['iphone guuci huawei watch huawei'
 'huawei watch iphone watch iphone guuci' 'skirt skirt skirt flower'
 'watch watch huawei']

words:
 ['iphone' 'guuci' 'huawei' 'watch' 'skirt' 'flower']

oneHots:
 [[1 1 0 0]
 [1 1 0 0]
 [1 1 0 1]
 [1 1 0 1]
 [0 0 1 0]
 [0 0 1 0]]

CF:
 [[1 1 2 1 0 0]
 [2 1 1 2 0 0]
 [0 0 0 0 3 1]
 [0 0 1 2 0 0]]

TF:
 [[ 0.2         0.2         0.4         0.2         0.          0.        ]
 [ 0.33333333  0.16666667  0.16666667  0.33333333  0.          0.        ]
 [ 0.          0.          0.          0.          0.75        0.25      ]
 [ 0.          0.          0.33333333  0.66666667  0.          0.        ]]

DF:
 [2 2 3 3 1 1]

IDF:
 [ 0.12493874  0.12493874  0.          0.          0.30103     0.30103   ]

TF-IDF:
 [[ 0.02498775  0.02498775  0.          0.          0.          0.        ]
 [ 0.04164625  0.02082312  0.          0.          0.          0.        ]
 [ 0.          0.          0.          0.          0.2257725   0.0752575 ]
 [ 0.          0.          0.          0.          0.          0.        ]]
==============================================

(end)

【機器學習】文字資料的向量化(TF-IDF)---樣本集例項講解+python實現

1.文字資料的向量化1.1名詞解釋CF：文件集的頻率，是指詞在文件集中出現的次數DF：文件頻率，是指出現詞的文件數IDF：逆文件頻率，idf = log(N/(1+df))，N為所有文件的數目，為了相容df=0情況，將分母弄成1+df。TF：詞在文件中的頻率TF-IDF：TF

【深度學習】詞的向量化表示

model ref res font 技術訓練 lin 挖掘 body 如果要一句話概括詞向量的用處，就是提供了一種數學化的方法，把自然語言這種符號信息轉化為向量形式的數字信息。這樣就把自然語言理解的問題要轉化為機器學習的問題。其中最常用的詞向量模型無非是 one-h

【機器學習】鳶尾花資料探索

# 匯入必要的處理包 from pandas import read_csv from pandas.plotting import scatter_matrix from matplotlib import pyplot from sklearn.model_selection imp

【機器學習】時序資料處理

相關參考文獻： 1.時間序列交叉驗證 2.機器學習與時間序列預測 3.時序資料預測案例： O2O Coupon Usage Forecast 4.時間序列模型中樣本時間視窗的選擇-華泰期貨 5.scikit-learn交叉驗證時間序列資料的自定義拆分 6.Featu

【機器學習】資料分析王者 CatBoost vs. Light GBM vs. XGBoost

機器學習領域的一個特點就是日新月異，在資料競賽中，一件趁手的工具對比賽結果有重要影響。boosting是一種將弱分類器組合成強分類器的方法，它包含多種演算法，如GDBT、AdaBoost、XGBoost等等。如果你參加過Kaggle之類的資料競賽，你可能聽說過XGBoost在

【機器學習】資料探勘演算法——關聯規則（一），相關概念，評價指標

綜述：資料探勘是指以某種方式分析資料來源，從中發現一些潛在的有用的資訊，所以資料探勘又稱作知識發現，而關聯規則挖掘則是資料探勘中的一個很重要的課題，顧名思義，它是從資料背後發現事物之間可能存在的關聯或者聯絡。關聯規則的目的在於在一個數據集中找出項之間的關

【機器學習】資料探勘演算法——關聯規則（二），挖掘過程，Aprioir演算法

關聯規則挖掘的原理和過程從關聯規則（一）的分析中可知，關聯規則挖掘是從事務集合中挖掘出這樣的關聯規則：它的支援度和置信度大於最低閾值（minsup,minconf），這個閾值是由使用者指定的。根據 support=(X,Y).count/T.countsupp

【機器學習】加州理工學院公開課——機器學習與資料探勘 1.學習問題

一、概念形式化輸入：x 輸出：y 目標函式：F：x → y 資料：(x1, y1), (x2, y2), …, (xN, yN) 假設函式：g：x → y 假設集：H={h}， G∈H （假設集有助於理解是否用這個演算法及用這個演

【機器學習】迴歸案例實踐：資料處理建模調參

# -*- coding: utf-8 -*- """迴歸問題案例.ipynb Automatically generated by Colaboratory. Original file is located at https://colab.research.google

【機器學習】資料降維—主成分分析（PCA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。主成分分析（PCA）特徵抽取通常用於提高計算效率，降低維度災難。主成分分析（Principe component analysis，PCA）：是一種廣泛應用於不同領域的無監督

【機器學習】資料降維—線性判別分析（LDA）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。線性判別分析（Linear Discriminant Analysis,LDA）是一種可作為特徵抽取的技術 LDA可以提

【機器學習】模型訓練前夜—資料集預處理（概念+圖+實戰）

本文程式碼推薦使用Jupyter notebook跑，這樣得到的結果更為直觀。缺失資料處理： # 顯示資料的缺失值 import pandas as pd from io import StringIO csv_data = '''A,B,C,D 1.0,2.0,3

【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性

img eas 一個 increase 裏的 sum 示例增加機器在得出random forest 模型後，評估參數重要性 importance（）示例如下特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量比如 X1

【機器學習】主成分分析PCA（Principal components analysis）

大小限制總結情況 pca 空間會有 ges nal 1. 問題真實的訓練數據總是存在各種各樣的問題：　　1、比如拿到一個汽車的樣本，裏面既有以“千米/每小時”度量的最大速度特征，也有“英裏/小時”的最大速度特征，

【機器學習】1 監督學習應用與梯度下降

例如 tla ges 機器 fprintf lns 找到輸入 style 監督學習簡單來說監督學習模型如圖所示其中 x是輸入變量又叫特征向量 y是輸出變量又叫目標向量通常的我們用（x,y）表示一個樣本而第i個樣本用（x（i），y（i））表示 h是輸出函

【機器學習】EM的算法

log mea www 優化問題 get href ive 路線 EM的算法流程：初始化分布參數θ；重復以下步驟直到收斂： E步驟：根據參數初始值或上一次叠代的模型參數來計算出隱性變量的後驗概率，其實就是隱性變量的期望。作為隱藏變量的

【機器學習】DBSCAN Algorithms基於密度的聚類算法

多次使用缺點有效結束基於需要 att 共享一、算法思想： DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基於密度的聚

【機器學習】數據預處理之將類別數據轉換為數值

行數據 pri and slab form ces nbsp 遍歷 encode 在進行python數據分析的時候，首先要進行數據預處理。有時候不得不處理一些非數值類別的數據，嗯，今天要說的就是面對這些數據該如何處理。目前了解到的大概有三種方法： 1，通過LabelE

【機器學習】對梯度下降算法的進一步理解

獨立 com 線性回歸執行 ont 執行過程 wid 簡單的技術單一變量的線性回歸讓我們依然以房屋為例，如果輸入的樣本特征是房子的尺寸，我們需要研究房屋尺寸和房屋價格之間的關系，假設我們的回歸模型訓練集如下其中我們用 m表示訓練集實例中的實例數量， x代表特

【機器學習】手寫數字識別算法

alt gdi 數字識別 -1 轉換 error: erro files turn 1.數據準備樣本數據獲取忽略，實際上就是將32*32的圖片上數字格式化成一個向量，如下：本demo所有樣本數據都是基於這種格式的訓練數據：將圖片數據轉成1*1024的數組，作為一

【機器學習】文字資料的向量化(TF-IDF)---樣本集例項講解+python實現

1.文字資料的向量化

1.1名詞解釋

1.2文字資料樣本集

1.3計算彙總

1.4實現tf-idf

相關推薦