LDA + SVM 文字分類

阿新 • • 發佈：2019-01-03

關於LDA的一些理解

對於語料庫中的每篇文件，LDA定義瞭如下生成過程（generative process）：

對每一篇文件，從主題分佈中抽取一個主題；
從上述被抽到的主題所對應的單詞分佈中抽取一個單詞；
重複上述過程直至遍歷文件中的每一個單詞。

$P(word|document) = P(word|topic)\times P(topic|document)$

文件document中出現單詞word的概率 = 主題topic中出現word的概率 $\times$

\times

\times

document中出現topic的概率。

以Topic作為中間層，可以通過當前的 $\theta d$ 和 $\varphi t$ 得到 $P(word|document)$ ，其中， $P(topic|document)$ 利用 $\theta d$ 得到， $P(word|topic)$ 通過 $\varphi t$ 得到。
實際上，利用當前的 $\theta d$ 和 $\varphi t$ ，我們可以為一個文件中的一個單詞計算它對應任意一個Topic時的 $P(Word|document)$ ，然後根據這些結果來更新這個詞對應的Topic。如果這個更新改變了這個單詞所對應的Topic，就會反過來影響 $\theta d$ 和 $\varphi t$ 。

公式背景：

一個函式：Gamma函式
- $F(n) = \int^\infty_0 t^{x-1}e^{-t}dt$
- Gamma函式是階乘函式在實數上的推廣
四個分佈：二項分佈、多項分佈、beta分佈、Dirichlet分佈
一個概念和一個理念：共軛先驗和貝葉斯框架
- 共軛分佈：後驗概率（posterior probability） $\propto$ 似然函式(likelyhood function) $\times $先驗概率(prior probability)
兩個模型：pLSA、LDA
一個取樣：Gibbs取樣

sklean.decomposition.LatentDirichletAllocation

sklearn的LDA方法與引數說明：

class sklearn.decomposition.LatentDirichletAllocation（n_components = 10，doc_topic_prior = None，topic_word_prior = None，learning_method = None，learning_decay = 0.7，learning_offset = 10.0，max_iter = 10，batch_size = 128，evaluate_every = -1，total_samples = 1000000.0，perp_tol = 0.1，mean_change_tol = 0.001，max_doc_update_iter = 100，n_jobs = 1，verbose = 0，random_state = None，n_topics = None ）

n_components：int，optional（預設值= 10）

主題數量，老版本該引數名為n_topics

doc_topic_prior：float，optional（預設=無）

之前的文件主題分發theta。如果值為None，則預設為1 / n_components。在文獻中，這被稱為阿爾法。

topic_word_prior：float，optional（預設=無）

之前的主題詞分發beta。如果值為None，則預設為1 / n_components。在文獻中，這被稱為eta。

learning_method：‘batch’(批量更新)| ‘online’（線上更新），預設=‘online’

用於更新_component的方法。僅用於fit方法。通常，如果資料量很大，則線上更新將比批量更新快得多。預設學習方法將在0.20版本中更改為“批處理”。有效選項：
'batch'：批量變分貝葉斯方法(Batch variational Bayes method)。每次EM更新都會使用所有訓練資料。
    舊的components_將在每次迭代中被覆蓋。
'online'：線上變分貝葉斯方法(Online variational Bayes method)。在每次EM更新中，使用
    小批量的訓練資料來更新components_變數的遞增，學習率由learning_decay和learning_offset引數控制。

learning_decay：float，optional（預設值= 0.7）

它是線上學習方法中控制學習率的引數。該值應設定在（0.5,1.0）之間以保證漸近收斂。當值為0.0且batch_size為時 n_samples，更新方法與批量學習相同。在文獻中，這稱為kappa。

learning_offset：float，optional（預設值= 10.）

一個（正）引數，可以降低線上學習中的早期迭代。它應該大於1.0。在文獻中，這稱為tau_0。

max_iter：整數，可選（預設= 10）

最大迭代次數。

batch_size：int，optional（預設值= 128）

每次EM迭代中使用的文件數。僅用於線上學習。

evaluate_every：int，optional（預設值= 0）

多久評估一次困惑。僅用於fit方法。將其設定為0或負數，以便根本不評估訓練中的困惑。評估困惑可以幫助您檢查培訓過程中的收斂，但也會增加總培訓時間。評估每次迭代中的困惑可能會將訓練時間增加兩倍。

total_samples：int，optional（default = 1e6）

檔案總數。僅用於partial_fit方法。

perp_tol：float，optional（預設值= 1e-1）

批量學習中的困惑容忍度。僅在 evaluate_every大於0時使用。

mean_change_tol：float，optional（預設值= 1e-3）

在E步驟中停止更新文件主題分發的容差。

max_doc_update_iter：int（預設值= 100）

在E步驟中更新文件主題分發的最大迭代次數。

n_jobs：int，optional（預設值= 1）

在E步驟中使用的作業數。如果為-1，則使用所有CPU。對於 n_jobs-1以下，使用（n_cpus + 1 + n_jobs）。

verbose：int，optional（預設值= 0）

詳細程度。

random_state：int，RandomState例項或None，可選（預設=無）

如果是int，則random_state是隨機數生成器使用的種子; 如果是RandomState例項，則random_state是隨機數生成器; 如果沒有，隨機數生成器所使用的RandomState例項np.random。

方法

`fit`（X [，y]）	使用變分貝葉斯方法學習資料X的模型。
獲取此估算工具的引數。
線上VB與Mini-Batch更新。
`perplexity`（X [，doc_topic_distr，sub_sampling]）	計算資料X的近似困惑。
`score`（X [，y]）	計算近似對數似然值作為分數。
設定此估算器的引數。
根據擬合模型轉換資料X.

__init__（n_components = 10，doc_topic_prior = None，topic_word_prior = None，learning_method = None，learning_decay = 0.7，learning_offset = 10.0，max_iter = 10，batch_size = 128，evaluate_every = -1，total_samples = 1000000.0，perp_tol = 0.1，mean_change_tol = 0.001，max_doc_update_iter = 100，n_jobs = 1，verbose = 0，random_state = None，n_topics = None ）[source]
fit（X，y =無）[來源]

使用變分貝葉斯方法學習資料X的模型。當learning_method為“線上”時，請使用小批量更新。否則，請使用批量更新。引數：X：類似陣列或稀疏矩陣，shape =（n_samples，n_features）文件字矩陣。y：忽略了。return：self
fit_transform（X，y =無，*** fit_params* ）[來源]

適合資料，然後轉換它。使用可選引數fit_params使變換器適合X和y，並返回X的變換版本。引數：X：numpy陣列形狀[n_samples，n_features]訓練集。y：numpy陣列形狀[n_samples]目標值。返回：X_new：numpy形狀陣列[n_samples，n_features_new]變形陣列。
get_params（深=真）[來源]

獲取此估算工具的引數。引數：deep：布林值，可選如果為True，將返回此估計器的引數幷包含作為估算器的子物件。返回：params：將字串對映到任意字串對映到其值的引數名稱。
partial_fit（X，y =無）[來源]

線上VB與Mini-Batch更新。引數：X：類似陣列或稀疏矩陣，shape =（n_samples，n_features）文件字矩陣。y：忽略了。return：self
perplexity（X，doc_topic_distr =‘不贊成’，sub_sampling = False ）[來源]

計算資料X的近似困惑。困惑定義為exp（-1。每個單詞的對數似然）版本0.19中已更改：已棄用doc_topic_distr*引數並將其忽略，因為使用者無法再訪問非標準化分佈引數：X：類似陣列或稀疏矩陣，[n_samples，n_features]文件字矩陣。doc_topic_distr：無或陣列，shape =（n_samples，n_components）文件主題分發。此引數已棄用，目前正在被忽略。從版本0.19開始不推薦使用。sub_sampling：bool是否進行二次取樣。返回：得分：漂浮困惑得分。
score（X，y =無）[來源]

計算近似對數似然值作為分數。引數：X：類似陣列或稀疏矩陣，shape =（n_samples，n_features）文件字矩陣。y：忽略了。返回：得分：漂浮使用近似界限作為分數。
set_params（*** params* ）[來源]

設定此估算器的引數。該方法適用於簡單估計器以及巢狀物件（例如管道）。後者具有表單的引數，<component>__<parameter>以便可以更新巢狀物件的每個元件。return：self
transform（X ）[來源]

根據擬合模型轉換資料X.在版本0.18中更改：doc_topic_distr現在已標準化引數：X：類似陣列或稀疏矩陣，shape =（n_samples，n_features）文件字矩陣。返回：doc_topic_distr：shape =（n_samples，n_components）X的文件主題分發。

例項1 : 使用LDA+SVM進行文字多分類

網上沒找到LDA與SVM結合的程式碼，我自己的實現方法如下，不知道用的正不正確，僅供參考。由於在比賽，暫不提供完整的參考程式碼。

Step 1. CV特徵提取

LDA模型學習時的訓練資料並不是一篇篇文字，而是Document-word matrix，它可以是array也可以是稀疏矩陣，維數是n_samples*n_features，其中n_features為詞(term)的個數。因此在訓練LDA主題模型前，需要先利用CountVectorizer統計詞頻並儲存

from sklearn.feature_extraction.text import CountVectorizer

# 構建總單詞矩陣
count_v0= CountVectorizer();  
counts_all = count_v0.fit_transform(all_text); #all_text為訓練集+測試集語料庫

# 構建訓練集單詞矩陣
count_v1= CountVectorizer(vocabulary=count_v0.vocabulary_)
counts_train = count_v1.fit_transform(train_texts)

# 構建測試集單詞矩陣
# count_v2 = CountVectorizer(vocabulary=count_v0.vocabulary_) 
# counts_test = count_v2.fit_transform(test_texts);

Step 2. LDA構建詞模型（不太清楚這裡應該怎麼說？感覺依舊在做特徵工程）

核心程式碼為三步：構建模型、擬合數據(fit)、根據擬合模型轉換資料(transform)。

from sklearn.decomposition import LatentDirichletAllocation
lda = LatentDirichletAllocation(n_components=n_component, max_iter=50, learning_method='batch')
X_train = lda.fit(counts_train).transform(counts_train)
# X_test = lda.fit(counts_test).transform(counts_test)

Step 3. 使用分類模型（SVC為例）

把LDA構建好的詞模型輸入到分類器中即可。

svclf = SVC(kernel = 'linear') 
svclf.fit(x_train,y_train)  
preds = svclf.predict(x_test)
# ...

例項2 ：使用LDA進行文字多分類

# 載入資料，使用sklearn自帶的fetch_20newsgroups資料集
from sklearn.datasets import fetch_20newsgroups
dataset = fetch_20newsgroups(shuffle=True, random_state=1,
                             remove=('headers', 'footers', 'quotes'))
n_samples=200
data_samples = dataset.data[:n_samples] #擷取需要的量，n_samples=2000

# CountVectorizer統計詞頻
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.externals import joblib  #也可以選擇pickle等儲存模型，請隨意
n_features=2500
#構建詞彙統計向量並儲存，僅執行首次
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                                max_features=n_features,
                                stop_words='english')
tf = tf_vectorizer.fit_transform(data_samples)
joblib.dump(tf_vectorizer,'tf_Model.pkl',compress=3)

#==============================================================================
#得到儲存的tf_vectorizer,節省預處理時間
#from sklearn.externals import joblib
#tf_vectorizer = joblib.load('tf_Model.pkl')
#tf = tf_vectorizer.fit_transform(data_samples)
#==============================================================================

from sklearn.decomposition import LatentDirichletAllocation
n_topic = 10
n_topics = 30
lda = LatentDirichletAllocation(n_topics=n_topic, 
                                max_iter=50,
                                learning_method='batch')
lda.fit(tf) #tf即為Document_word Sparse Matrix

def print_top_words(model, feature_names, n_top_words):
    #列印每個主題下權重較高的term
    for topic_idx, topic in enumerate(model.components_):
        print ("Topic #%d:" % topic_idx)
        print (" ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]]))
    #列印主題-詞語分佈矩陣
    print (model.components_)

n_top_words=20
tf_feature_names = tf_vectorizer.get_feature_names()
print_top_words(lda, tf_feature_names, n_top_words)

#print trained topic model
tf_feature_names = tf_vectorizer.get_feature_names()
for idx, topic in enumerate(lda.components_, start=1):
    print('Topic #%d' % idx)
    print("/".join([tf_feature_names[i] for i in topic.argsort ()[:-11:-1]]))   #列印（主題-詞彙）向量

lda.transform(tf)[0]  #列印（文章-主題）向量

LDA + SVM 文字分類

關於LDA的一些理解對於語料庫中的每篇文件，LDA定義瞭如下生成過程（generative process）：對每一篇文件，從主題分佈中抽取一個主題；從上述被抽到的主題所對應的單詞分佈中抽取一個單詞；重複上述過程直至遍歷文件中的每一個單詞。 P(w

tf-idf + svm 文字分類

01分類 import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model import LogisticRegression

NLP：主題模型LDA+SVM進行文字分類

參考：http://www.cnblogs.com/pinard/p/6908150.htmlhttp://blog.csdn.net/TiffanyRabbit/article/details/764

Spark下實現LDA+SVM的文字分類處理

最新發布的Spark1.3.1版本中已經實現了LDA的演算法，並且以前實現過LDA+SVM進行文字分類的處理程式，藉此機會想將程式改為Spark的分散式，Spark已經支援SVM和LDA演算法。Spa

用gensim做LDA實踐之文字分類

之前看LDA，一直沒搞懂到底作用是什麼，公式推導了一大堆，dirichlet分佈求了一堆倒數，卻沒有真正理解精髓在哪裡。最近手上遇到了一個文字分類的問題，採用普通的VSM模型的時候，執行的太慢，後來查詢改進策略的時候，想起了LDA，因此把LDA重新拉回我的視

python進行文字分類，基於word2vec,sklearn-svm對微博垃圾評論分類

差不多一年前的第一個分類任務，記錄一下語料庫是關於微博的垃圾使用者評論，分為兩類，分別在normal,和spam資料夾下。裡面是很多個txt檔案，一個txt是一條使用者評論。一、進行分詞利用Jieba分詞和去除停用詞（這裡我用的是全模式分詞），每一篇文件為一行

NLP --- 文字分類(基於LDA的隱語意分析詳解)

前幾節我們分析了向量空間模型（VSM）、基於奇異值分解（SVD）的潛語意分析（LSA）、基於概率的潛語意分析（PLSA）這些模型都是為了解決文字分類問題，他們各自有自己的優點和缺點，其中VSM模型簡單方便但是容易造成維度爆炸和計算量慢的缺點，LSA是基於矩陣分解的原理進行分析的，優點是對VSM有

NLP --- 文字分類(基於LDA的隱語意分析訓練演算法詳解)

上一節詳細介紹了什麼是LDA，詳細講解了他的原理，大家應該好好理解，如果不理解，這一節就別看了，你是看不懂的，這裡我在簡單的敘述LDA的演算法思想：首先我們只擁有很多篇文字和一個詞典，那麼我們就可以在此基礎上建立基於基於文字和詞向量聯合概率（也可以理解為基於文字和詞向量的矩陣，大家暫且這樣

sklearn svm實現文字分類入門

正在學習sklearn , 實驗室專案需要實現一些文字的分類的功能。 sklearn提供了許多機器學習方面使用的到的寫好的工具。其中也包括分類器。sklearn在這裡不作介紹。有官網，有部落格，也正在學習中最開始是參照著這片文章： https://seg

文字分類與SVM

之前做過一些文字挖掘的專案，比如網頁分類、微博情感分析、使用者評論挖掘，也曾經將libsvm進行包裝，寫了一個文字分類的開軟軟體Tmsvm。所以這裡將之前做過一些關於文字分類的東西整理總結一下。 1 基礎知識 1. 1 樣本整理文字分類屬於有監督的學習，所以需要整理樣

資料探勘—LDA,PCA特徵提取降維與SVM多分類在人臉識別中的應用－資料集ORL

@vision 3 @author：馬旭 @tel：13952522076 @email：[email protected] 執行：執行predict.m檔案；結果：時間一般為0.2秒左右，正確率100%；（因為測試集比較少）預處理資料preprocess

python進行文字分類，基於word2vec,sklearn-svm對微博性別分類

第一個分類任務，記錄一下語料庫下載一、進行手工分類導師給的資料是兩個資料夾，一個包含了以使用者ID名為標題的一大堆txt（未分類），還有一個資料夾裡面是已經分類好的男女性別ID的集合txt。先要做的任務就是將未分類的txt分成兩類（根據給

文字分類的python實現-基於SVM演算法

描述訓練集為評論文字，標籤為 pos,neu,neg三種分類，train.csv的第一列為文字content，第二列為label。可以單獨使用SVC訓練然後預測，也可以使用管道pipeline把訓練和預測放在一塊。 SVC的懲罰引數C：預設值是1.0。C越

利用SVM 實現文字分類的例項

原文來自：http://blog.csdn.net/zhzhl202/article/details/8197109 之前做過一些文字挖掘的專案，比如網頁分類、微博情感分析、使用者評論挖掘，也曾經將libsvm進行包裝，寫了一個文字分類的開軟軟體Tmsvm。所以這裡將

文字分類之降維技術之特徵抽取之LDA線性判別分析

背景：為什麼需要特徵抽取？基於的向量空間模型有個缺點，即向量空間中的每個關鍵詞唯一地代表一個概念或語義單詞，也就是說它不能處理同義詞和多義詞，然而實際情況是：一個詞往往有多個不同的含義，多個

SVM多分類

判斷 style 所有實現層次函數 machines clas 兩個類 SVMs(Surport Vector Machines)是用來解決兩分類問題的，直接用SVMs實現多分類是不行的，只能使用下面這些間接的方法：（1）1-v-r，即對於每一個分類，訓練一個該分

tensorflow實現svm多分類 iris 3分類——本質上在使用梯度下降法求解線性回歸（loss是定制的而已）

points near plot asi atm lob put matplot ive # Multi-class (Nonlinear) SVM Example # # This function wll illustrate how to # implement

CS231N-線性回歸+svm多分類+softmax多分類

不同 vertica 泛化 ESS stx tex inside ner 分數 CS231N-線性回歸+svm多分類+softmax多分類計算機視覺這一部分比較基礎，沒有太多視覺相關的。。 1.線性回歸假定在著名的 CIFAR10數據集上，包含10類數據。每

基於SVM的分類器Python實現

比較 sort load 自帶 rain 分析 python實現 see 基於本文代碼來之《數據分析與挖掘實戰》，在此基礎上補充完善了一下~ 代碼是基於SVM的分類器Python實現，原文章節題目和code關系不大，或者說給出已處理好數據的方法缺失、源是圖像數據更是不見蹤

5.1、文字分類

1、樸素貝葉斯 NB 　　三大概率　　　　1、條件概率　　　　　　Ω是全集，A、B是其中的事件（子集），p是事件發生的概率，則：p(A | B) = p(AB) / p(B)，事件B發生，A發生的概率

LDA + SVM 文字分類

關於LDA的一些理解

公式背景：

sklean.decomposition.LatentDirichletAllocation

方法

例項1 : 使用LDA+SVM進行文字多分類

Step 1. CV特徵提取

Step 2. LDA構建詞模型（不太清楚這裡應該怎麼說？感覺依舊在做特徵工程）

Step 3. 使用分類模型（SVC為例）

例項2 ：使用LDA進行文字多分類

相關推薦