TF-IDF具體演算法和原理

阿新 • • 發佈：2020-10-14

TF-IDF演算法

TF-IDF的具體實現

　　jieba，NLTK，sklearn，gensim等程式包都可以實現TF-IDF的計算。除演算法細節上有差異外，更多的是資料輸入/輸出格式上的不同。

使用jieba實現TD-IDF演算法

　　輸出結果會自動按照TF-IDF值降序排列，並且直接給出的是詞條而不是字典ID，便於閱讀使用。

　　可在計算TF-IDF時直接完成分詞，並使用停用詞表和自定義詞庫，非常方便。（直接傳入句子，不需要提前切分詞）

　　有預設的IDF語料庫，可以不訓練模型，直接進行計算

　　以單個文字為單位進行分析。

　　jieba核心是拿到關鍵詞本身

jieba.analyse.extract_tags(

sentence 為待提取的文字
topK = 20 : 返回幾個 TF/IDF 權重最大的關鍵詞
withWeight = False : 是否一併返回關鍵詞權重值
allowPOS = () : 僅包括指定詞性的詞，預設值為空，即不篩選
)
jieba.analyse.set_idf_path(file_name)

jieba.analyse.set_stop_words(file_name)

關鍵詞提取時使用自定義停止詞（Stop Words）語料庫

勞動防護 13.900677652

生化學 13.900677652

奧薩貝爾 13.900677652

奧薩貝爾 13.900677652

考察隊員 13.900677652

jieba.analyse.TFIDF(idf_path = None)

新建 TFIDF模型例項
idf_path : 讀取已有的TFIDF頻率檔案（即已有模型）
使用該例項提取關鍵詞：TFIDF例項.extract_tags()

# 使用jieba提取關鍵詞，
import jieba
import jieba.analyse

# 注意：函式時在使用預設的TFIDF模型進行分析
t = jieba.analyse.extract_tags(chapter.txt[1])
print(t)  
# ['楊鐵心', '包惜弱', '郭嘯天', '顏烈', '丘處機', '武官', '楊二人', '官兵', ...]
print("返回權重值")
# 要求返回權重值
t = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
print(t)
# [('楊鐵心', 0.21886511509515091), ('包惜弱', 0.1685852913570757), ('郭嘯天', 0.09908082913091291),...]

按照關鍵詞評分的重要性排序的結果。

　　t = jieba.analyse.extract_tags(chapter.txt[1])
　　print(t)  
　　# ['楊鐵心', '包惜弱', '郭嘯天', '顏烈', '丘處機', '武官', '楊二人', '官兵', ...]

如果想要進一步知道關鍵詞的具體評分值，加上withWeight=True

　　# 要求返回權重值
　　t = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
　　print(t)
　　# [('楊鐵心', 0.21886511509515091), ('包惜弱', 0.1685852913570757), ('郭嘯天', 0.09908082913091291),...]


應用自定義詞典改善分詞效果

# 應用自定義詞典改善分詞效果
jieba.load_userdict('金庸小說詞庫.txt') # dict為自定義詞典的路徑

# 在TFIDF計算中直接應用停用詞表
jieba.analyse.set_stop_words('停用詞.txt')

Tfres = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
print(Tfres[:10])
# [('楊鐵心', 0.24787133516800222), ('包惜弱', 0.1909279203321098), ('郭嘯天', 0.11221202335308209)...]

　使用自定義的TFIDF頻率檔案

#-------------------------------------------------------------------------------------------------
# 結巴分詞有一個預設的TFIDF權重表，或者說有一個現成的模型，可以用該模型直接用於這個語料的計算中。但是這樣的準確率不高

# 正確的做法是：我們應該把射鵰英雄傳全書拿來，做出一個TFIDF的權重頻率模型，然後把它讀進來，
# 如下，我們是用自定義的TFIDF頻率檔案‘idf.txt.big’

# 使用自定義TFIDF頻率檔案
jieba.analyse.set_idf_path('idf.txt.big')
TFres1 = jieba.analyse.extract_tags(chapter.txt[1],withWeight=True)
print('使用自定義TFIDF頻率檔案')
print(TFres1[:10])

# [('楊鐵心', 0.24787133516800222), ('包惜弱', 0.1909279203321098), ('郭嘯天', 0.11221202335308209)...]

使用gensim實現TF-IDF演算法

　　輸出格式為list，目的也是為後續的建模分析服務。

　　需要先使用背景語料庫進行模型訓練。

　　結果中給出的是字典ID，而不是具體的詞條（jieba給出的是具體詞條），直接閱讀結果比較困難。

未完待續.......

TF-IDF具體演算法和原理

TF-IDF演算法相關概念資訊檢索（IR）中最常用的一種文字關鍵資訊表示法基本資訊：

DES演算法和原理

Feistal框架是DES的主體，DES是在其基礎上搞出來的具體應用。關於Feistal框架部分不再贅述，瞭解的可跳過，不瞭解的跳轉↓做好預習 https://blog.csdn.net/weixin_43289702/article/details/108913996

TF-IDF筆記（手寫和直接呼叫）

首先TF-IDF 全稱：term frequency–inverse document frequency，是一種用於資訊檢索與資料探勘的常用加權技術。

堆排序演算法的具體分析和實現

定義堆就是完全二叉樹的資料結構，堆排序是利用二叉樹的孩子與雙親節點的比較來實現的排序方法。

分治演算法基本原理和實踐

一、基本概念在電腦科學中，分治法是一種很重要的演算法。字面上的解釋是“分而治之”，就是把一個複雜的問題分成兩個或更多的相同或相似的子問題，再把子問題分成更小的子問題……直到最後子

Floyd演算法的原理和實現程式碼

原理假設有向圖G=(V，E)採用鄰接矩陣儲存。設定一個二維陣列A用於存放當前頂點之間的最短路徑長度，分量A[i][j]表示當前頂點i -> j的最短路徑長度。然後，每次新增一個頂點，同時對A的陣列進行篩選優化，期間會產

雙指標演算法基本原理和實踐

什麼是雙指標雙指標，指的是在遍歷物件的過程中，不是普通的使用單個指標進行訪問，而是使用兩個相同方向（快慢指標）或者相反方向（對撞指標）的指標進行掃描，從而達到相應的目的。

[機器學習]協同過濾演算法的原理和基於Spark 例項

技術標籤：sparkspark機器學習協同過濾目錄協同過濾協同過濾的型別協同過濾的評價方法

雪花演算法的原理和 Java 實現

技術標籤：java雪花演算法的原理 SnowFlake 演算法，是 Twitter 開源的分散式ID生成演算法。其核心思想就是：使用一個 64 bit 的 long 型的數字作為全域性唯一ID。在分散式系統中的應用十分廣泛，且 ID 引入了時

分治演算法基本原理和實踐（三）

一、基本概念在電腦科學中，分治法是一種很重要的演算法。字面上的解釋是“分而治之”，就是把一個複雜的問題分成兩個或更多的相同或相似的子問題，再把子問題分成更小的子問題……直到最後子問題可以簡單的直接求

TF-IDF演算法介紹

TF-IDF（term frequency–inverse document frequency，詞頻-逆向檔案頻率）是一種用於資訊檢索（information retrieval）與文字挖掘（text mining）的常用加權技術。

iOS 常用的加密演算法和網路安全問題的瞭解

iOS中的加密演算法對稱加密演算法AES演算法 AES加密演算法涉及4種操作：位元組替代（SubBytes）、行移位（ShiftRows）、列混淆（MixColumns）和輪金鑰加（AddRoundKey）。下圖給出了AES加解密的流程，從圖中可以看出

GC演演算法和種類

GC的概念 Garbage Collection 垃圾收集，簡稱GC。Java中GC的物件是堆空間和永久區。

redis單執行緒快的原因和原理

Redis之所以執行速度很快，主要依賴於以下幾個原因： (一)純記憶體操作，避免大量訪問資料庫，減少直接讀取磁碟資料，redis 將資料儲存在記憶體裡面，讀寫資料的時候都不會受到硬碟 I/O 速度的限制，所以速度快；

mongodb增量備份指令碼的實現和原理詳解

前言 mongodb的副本集架構，主庫和從庫的資料相同步，如果主庫的機器壞掉，沒什麼關係，從庫上還有相同的副本資料。但如果某人惡意操作或誤操作，一下子批量刪除或drop整個庫，這樣主庫和從庫的資料都會沒有，造成巨

詳解oracle的分表之表分割槽的具體使用和示例

此文從以下幾個方面來整理關於分割槽表的概念及操作: 1.表空間及分割槽表的概念

深入理解Redis的持久化機制和原理

一、Redis持久化是如何工作的？什麼是持久化？簡單來講就是將資料放到斷電後資料不會丟失的裝置中，也就是我們通常理解的硬碟上。首先我們來看一下資料庫在進行寫操作時到底做了哪些事，主要有下面五個過程：

Java記憶體溢位案例模擬和原理分析過程

在JVM虛擬機器規範中，Java虛擬機器執行時資料區域除了程式計數器（Program Counter Register）外都有可能出現OutOfMemoryError的情況，使用Hotspot虛擬機器簡單的模擬堆疊記憶體溢位的場景，方便快速定位是什麼區域

opengl實現直線掃描演算法和區域填充演算法

本文例項為大家分享了opengl實現直線掃描演算法和區域填充演算法，供大家參考，具體內容如下

C#字串在記憶體中的具體數值和佔長

在學習資料在記憶體中的儲存方式時突然想到這個問題，在查閱了資料後有點大概的思路，但是網上還是有看到不同的答案，如這裡的回答：https://q.cnblogs.com/q/35325/

TF-IDF具體演算法和原理

TF-IDF演算法

相關概念

TF-IDF的具體實現

使用jieba實現TD-IDF演算法

使用gensim實現TF-IDF演算法

相關推薦