文字挖掘與分析課程筆記_Week3
阿新 • • 發佈:2019-02-03
第三週筆記
概率主題模型:混合一元語言模型
- 用兩個詞分佈來表示,以此去除背景詞(常見但意義不大的詞)
- θd表示主題詞分佈
- θB表示背景詞分佈
- 文字中某個詞的概率計算
混合兩個一元語言模型(解析)
- 利用最大似然求解混合兩個一元語言模型時,θd和θB會出現“合作”和“競爭”
- 在θB(背景詞)分佈中,概率大的詞,相對地在θd(主題詞)中概率會變小
- 某個詞出現的次數越多,那麼它在θd中的概率越高
- 假設【所有引數已知】求某個詞,其來自主題詞的概率公式(z為隱變數,當z為1是表示該詞來自背景詞)
最大期望演算法 Expectation-Maximization(EM)
- 給p(w|θd)隨機初始化一個值,通過E-step和M-step計算,使初始值改變,逐漸逼近最佳值(區域性最優值)
- E-step是用附加資訊來支援資料,像z(E-step用來計算lower bound的)
- M-step是用附加資訊來分開資料,分隔資料賬目並收集正確的資料賬目,重新估計引數(M-step用來提升,最大化下界)
- EM演算法的解釋(像爬山,最終會收斂於一個區域性最優)
- - - - - 1.糟糕的初始值可能會得不到全域性最優
概率隱語義分析 Probabilistic Latent Semantic Analysis(PLSA)
- 混合一元語言模型有多個(k個)主題分佈的情況(注意引數λ和π)
- 引數解析
- 引數計算(最大似然函式)
- 最大似然難求解,可用EM演算法,同理有E-step和M-step
潛在利克雷分佈 Latent Dirichlet Allocation(LDA)
- 最大後驗概率估計
- PLSA的一些缺點
- - - - - 1.不是一個生成模型,即無法計算新文件的概率
- - - - - 1.引數過多,使得計算過程複雜
與PLAS相比,LDA所做出的改進
似然函式的調整
課程小結
課後測驗