1. 程式人生 > >文字挖掘與分析課程筆記_Week3

文字挖掘與分析課程筆記_Week3

第三週筆記

概率主題模型:混合一元語言模型

  • 用兩個詞分佈來表示,以此去除背景詞(常見但意義不大的詞)
  • θd表示主題詞分佈
  • θB表示背景詞分佈

這裡寫圖片描述

  • 文字中某個詞的概率計算

這裡寫圖片描述

混合兩個一元語言模型(解析)

  • 利用最大似然求解混合兩個一元語言模型時,θd和θB會出現“合作”和“競爭”
  • 在θB(背景詞)分佈中,概率大的詞,相對地在θd(主題詞)中概率會變小
  • 某個詞出現的次數越多,那麼它在θd中的概率越高

這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述

  • 假設【所有引數已知】求某個詞,其來自主題詞的概率公式(z為隱變數,當z為1是表示該詞來自背景詞)

這裡寫圖片描述

最大期望演算法 Expectation-Maximization(EM)

  • 給p(w|θd)隨機初始化一個值,通過E-step和M-step計算,使初始值改變,逐漸逼近最佳值(區域性最優值)
  • E-step是用附加資訊來支援資料,像z(E-step用來計算lower bound的)
  • M-step是用附加資訊來分開資料,分隔資料賬目並收集正確的資料賬目,重新估計引數(M-step用來提升,最大化下界)

這裡寫圖片描述

  • EM演算法的解釋(像爬山,最終會收斂於一個區域性最優)
  • - - - - 1.糟糕的初始值可能會得不到全域性最優

這裡寫圖片描述

概率隱語義分析 Probabilistic Latent Semantic Analysis(PLSA)

  • 混合一元語言模型有多個(k個)主題分佈的情況(注意引數λ和π)

這裡寫圖片描述

  • 引數解析

這裡寫圖片描述

  • 引數計算(最大似然函式)

這裡寫圖片描述

  • 最大似然難求解,可用EM演算法,同理有E-step和M-step

這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述

潛在利克雷分佈 Latent Dirichlet Allocation(LDA)

  • 最大後驗概率估計

這裡寫圖片描述
這裡寫圖片描述

  • PLSA的一些缺點
  • - - - - 1.不是一個生成模型,即無法計算新文件的概率
  • - - - - 1.引數過多,使得計算過程複雜

這裡寫圖片描述

  • 與PLAS相比,LDA所做出的改進
    這裡寫圖片描述
    這裡寫圖片描述

  • 似然函式的調整

這裡寫圖片描述

課程小結

這裡寫圖片描述

課後測驗

這裡寫圖片描述
這裡寫圖片描述