文字挖掘與分析課程筆記_Week3

阿新 • • 發佈：2019-02-03

第三週筆記

概率主題模型：混合一元語言模型

用兩個詞分佈來表示，以此去除背景詞（常見但意義不大的詞）
θd表示主題詞分佈
θB表示背景詞分佈

這裡寫圖片描述

文字中某個詞的概率計算

這裡寫圖片描述

混合兩個一元語言模型（解析）

利用最大似然求解混合兩個一元語言模型時，θd和θB會出現“合作”和“競爭”
在θB（背景詞）分佈中，概率大的詞，相對地在θd（主題詞）中概率會變小
某個詞出現的次數越多，那麼它在θd中的概率越高

這裡寫圖片描述

假設【所有引數已知】求某個詞，其來自主題詞的概率公式（z為隱變數，當z為1是表示該詞來自背景詞）

這裡寫圖片描述

最大期望演算法 Expectation-Maximization（EM）

給p（w|θd）隨機初始化一個值，通過E-step和M-step計算，使初始值改變，逐漸逼近最佳值（區域性最優值）
E-step是用附加資訊來支援資料，像z（E-step用來計算lower bound的）
M-step是用附加資訊來分開資料，分隔資料賬目並收集正確的資料賬目，重新估計引數（M-step用來提升，最大化下界）

這裡寫圖片描述

EM演算法的解釋（像爬山，最終會收斂於一個區域性最優）
- - - - 1.糟糕的初始值可能會得不到全域性最優

這裡寫圖片描述

概率隱語義分析 Probabilistic Latent Semantic Analysis（PLSA）

混合一元語言模型有多個（k個）主題分佈的情況（注意引數λ和π）

這裡寫圖片描述

引數解析

這裡寫圖片描述

引數計算（最大似然函式）

這裡寫圖片描述

最大似然難求解，可用EM演算法，同理有E-step和M-step

這裡寫圖片描述

潛在利克雷分佈 Latent Dirichlet Allocation（LDA）

最大後驗概率估計

這裡寫圖片描述

PLSA的一些缺點
- - - - 1.不是一個生成模型，即無法計算新文件的概率
- - - - 1.引數過多，使得計算過程複雜

這裡寫圖片描述

與PLAS相比，LDA所做出的改進
似然函式的調整

這裡寫圖片描述

課程小結

這裡寫圖片描述

課後測驗

這裡寫圖片描述

文字挖掘與分析課程筆記_Week3

第三週筆記概率主題模型：混合一元語言模型用兩個詞分佈來表示，以此去除背景詞（常見但意義不大的詞） θd表示主題詞分佈 θB表示背景詞分佈文字中某個詞的概率計算混合兩個一元語言模型（解析）利用最大似然求解混合兩個一

文字挖掘與分析第五週學習筆記3--意見挖掘和情感分析

知識圖譜定位： 1.情感分析的動機 1.主觀與客觀的情緒兩種方式：攝影記錄，文字採集。文字比攝影更具有資訊優勢，由於可以藉助辦公機會。 2.觀點是什麼？觀點：常等同於主觀宣告，代表一個人所相信的，對某件事的想法。 1）觀點

算法設計與分析課程復習筆記(1)

n) 期望 AI closed pla UC 我們限定筆記一、計算模型 1.1 定義：我們在思考和處理算法的時候是機器無關、實現語言無關的。所有的算法運行在一種“抽象的機器”之上，這就是計算模型。　 1.2 種類圖靈機是最有名的計算模型，本課使用更簡單更合適的RA

南大算法設計與分析課程復習筆記(2)

動態規劃 http 問題 pos cnblogs 解決解決方法數據結構子數組一、幾種比較復雜度的符號數據結構有描述，相關嚴格數學定義也不想說了，就這麽過了吧。二、最大子數組的幾種解決方法從最復雜的暴力解法過渡到最簡單的動態規劃解析和代碼見這裏：http://

南大算法設計與分析課程復習筆記(3)L3 - Recursion

函數 -- 例子復習筆記圖片感覺有一個 mas 進行一、遞歸方程按照分治的思想，可以將一個遞歸的復雜度寫成遞歸方程一、解遞歸方程--猜然後證明該方法又稱為代入法，步驟如下： 1、猜解的形式 2、數學歸納法證明正確例子：我們假設有如下遞歸式：我們猜其

Skype for Business邊緣架構與設計課程筆記

business skype 文章課程文章鏈接：http://yangqs.com/?p=26 本文出自 “強生的博客” 博客，請務必保留此出處http://yangqs.blog.51cto.com/127876/1934724Skype for Business邊緣架構與設計課程筆記

06需求工程軟件建模與分析閱讀筆記之六

情況標記細節客戶管理優先級交叉引用術語重復此次閱讀了解到了優秀需求規格說明書文檔的特性。 1、完備性：需求規格說明文檔是完備的，當且僅當：（1）描述了用戶所有有意義的需求，包括功能、性能、約束、質量屬性和對外接口。（2）定義了軟件對所有的情況的所有實際輸入

需求工程——軟件建模與分析閱讀筆記01

gpo 分析方法提交中產理解 aos 筆記軟件項目類別 ·在假期間，通過閱讀需求工程——軟件建模與分析，了解到需求問題是當前軟件開發面臨的主要問題，無論是實踐還是數據的調查，都明確指出需求問題是當前軟件開發面臨的主要問題之一。在Standish Group的CHA

需求工程——軟件建模與分析閱讀筆記02

希望功能需求廣泛開發人員計算機 gpo 種類型問題 pos 通過閱讀第二章，了解到滿足需求就是解決問題。人們開發軟件系統的目的就是希望用它作為解決方案來解決問題，使得現實改善到期望的狀況，解決問題，改善現實，滿足用戶期望的條件與能力就是需求。問題解決的兩個方面包

需求工程——軟件需求建模與分析閱讀筆記01

建模以及問題面向很好不同發布未能 gpo 　　軟件的模擬特性：導致需求問題的原因中，一個最為重要的原因是：未能很好地理解和掌握“應用”型軟件的模擬型以及由此產生的一系列影響和要求。軟件的模擬特性來源於其知識載體的特性：軟件在運行中表現出來的特性、行為應該和

需求工程——軟件需求建模與分析閱讀筆記02

設計活動映射進行完成特性發揮重要規劃　　需求工程的j簡單定義　　需求工程是所有需求處理活動的總和，它收集信息、分析問題、整合觀點、記錄需求並驗證其正確性，最終反映軟件被應用後與其環境互動形成的期望效應。　　需求工程的3個主要任務　　1.需求工程

軟件需求與分析讀書筆記3

可能生產力 gpo 目的浪費需求工程 clas 讀書筆記讀書這本厚厚的書終於被我讀完了，現在開始最後一篇讀書筆記。最後幾章主要講的是需求的文檔和需求過程的管理。即需求分析必須標準化。我們在需求的過程中必須學會用建模的方法來規範需求工程。需求分析的

需求工程——軟件建模與分析閱讀筆記一（三）

數量細節文檔模板困難普通用戶軟件需求結果活動求和需求工程——軟件建模與分析閱讀筆記（三）需求工程的過程：需求獲取：需求獲取是從人、文檔、或環境中獲取需求的過程，必須用各種方法和技術來發現需求，需求開發的過程包含學習和認知的兩個過程，學習和認知是遞進的。

南大算法設計與分析課程OJ答案（2）

sam long bmi 窮舉 bbbb body 算法設計分配 info 問題 A: 最大子序列和問題時間限制: 1 Sec 內存限制: 4 MB提交: 184 解決: 66提交狀態算法問答題目描述給定一整數序列 a1, a2, …, an，

南大算法設計與分析課程OJ答案（3）

完美語言偶數使用課程 nbsp problems AS btn 問題 A: 動態中位數問題時間限制: 1 Sec 內存限制: 8 MB提交: 866 解決: 102提交狀態算法問答題目描述輸入一組整數a1, a2, …, an ，每輸入一

旅遊研究院大數據挖掘與分析科研平臺建設方案

外部聚類 ask 升級非結構化數據數據集重點客戶端節點和一. 背景一.1 數據挖掘和大數據分析行業背景和發展趨勢移動互聯網、電子商務以及社交媒體的快速發展使得企業需要面臨的數據量成指數增長。根據 IDC 《數字宇宙》(Digital Universe)研究

算法分析(課程筆記)

小問題技術其他問題 swa pri urn 通過目錄目錄遞歸與分治全排列希望通過寫博客促進自己學習，都是課本上算法的實現，隨課程更新遞歸與分治全排列基本思路就是分治，大問題化小問題。假設 R={A B C D}，對R進行全排列，會有24種結果

演算法設計與分析課程的時間空間複雜度

演算法設計與分析課程的時間空間複雜度：總結演算法時間複雜度空間複雜度說明 Hanoi $ O(2^n) $ $ O(n) $ 遞迴使用會場安排問題 \(O

數據挖掘與分析學習鏈接匯總

each循環 def 約束 docs 數據類型 efi foreach 經典 tail 最近在學習Sql Server的數據挖掘，為了方便歸納學習資料，我將看過的相關主題的文章的鏈接記錄在本篇文章內，以便後續溫習。在後續學習的過程當中，我會將我覺得比較經典的相關

吳裕雄數據挖掘與分析案例實戰（7）——嶺回歸與LASSO回歸模型

Y軸 otl error 處理回歸 models 關系 err idg # 導入第三方模塊import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn import mod

文字挖掘與分析課程筆記_Week3

第三週筆記

概率主題模型：混合一元語言模型

混合兩個一元語言模型（解析）

最大期望演算法 Expectation-Maximization（EM）

概率隱語義分析 Probabilistic Latent Semantic Analysis（PLSA）

潛在利克雷分佈 Latent Dirichlet Allocation（LDA）

課程小結

課後測驗

相關推薦