BTM學習小記

阿新 • • 發佈：2018-10-21

color lda col src ram pen 估計 param sel

BTM的原理跟LDA很像，下面是該模型的概率圖：

技術分享圖片

由該圖可以看出來，與LDA的區別在於確定主題分布和詞分布後相應地取兩個詞（而LDA只取一個，即類比常見的骰子說法：先投擲K面的骰子得到主題z，再根據相應的V面骰子，連續投擲兩次，得到一對詞匯），這倆詞叫做biterm（就是在把一個文檔分詞之後，對這些詞的設置一個距離指標，從第I個到第j個詞之間兩兩結對，都可以看作一對biterm）.從原文檔得到biterm代碼如下：

def build_Biterms(self, sentence):

"""

獲取 document 的 biterms

:param sentence: word id list sentence 是切詞後的每一詞的ID 的列表

:return: biterm list

"""

win = 15 # 設置窗口大小

biterms = []

for i in xrange(len(sentence)-1):

for j in xrange(i+1, min(i+win+1, len(sentence))):

biterms.append(Biterm(int(sentence[i]),int(sentence[j])))

return biterms

BTM利用了整個文本集合來估計一個theta，解決了稀疏問題（我們通常有海量數據）。放寬了mixture of unigram中對整個文檔必須同屬於一個主題z的約束（相當於從整個文檔放松到了窗口長度內的兩個詞），加強了LDA中每個詞對應於一個Z的假設（BTM中約束了窗長內的兩個詞組成一個biterm對應於一個z）。這個假設很接近於人類認知，因為我們知道，通常在較短的一段文本內，topic變化不大。

BTM學習小記

color lda col src ram pen 估計 param sel BTM的原理跟LDA很像，下面是該模型的概率圖：由該圖可以看出來，與LDA的區別在於確定主題分布和詞分布後相應地取兩個詞（而LDA只取一個，即類比常見的骰子說法：先投擲K面的骰子得到主題z，再

BTM學習小記

BTM學習小記

yarn 學習小記

selenium學習小記

學習小記：JS判斷時特殊值與boolean類型的轉換

Python學習小記

二維最小乘積生成樹學習小記

枚舉enum學習小記

【2018/04/02】學習小記

無監督學習小記（參考）

java集合類學習小記

啟發式合並（堆、set、splay、treap）/線段樹合並學習小記

es學習小記

Python學習小記(1)

Python學習小記(2)---[list, iterator, and, or, zip, dict.keys]

Python學習小記(3)---scope&namespace

Python學習小記(4)---class

LDA學習小記

BSGS（大步小步）演算法學習小記

Java8學習小記

遷移學習小記（一）僅用於學習記錄

BTM學習小記

相關推薦