1. 程式人生 > >PRML第一章筆記

PRML第一章筆記

ps:這是對模式識別與機器學習這本書的學習筆記,主要是一些自己的看法和總結(需要有一定的機器學習基礎,同時要結合PRML這本書)
模式識別:模式識別是指對錶徵事物或現象的各種形式的(數值的、文字的和邏輯關係的)資訊進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程,是資訊科學和人工智慧的重要組成部分。

(一),這一章首先介紹模式識別的概念和步驟,並一個例子進行說明。–特徵,學習,測試,以及相關方法。其次說明了模式識別過程中其實是運用概率論、決策論、資訊理論的相關知識。

(二),概率論:
1,模式識別與概率論的關係:在模式識別領域的⼀個關鍵概念是不確定性的概念,概率論提供了⼀個合理的框架,⽤來對不確定性進⾏量化和計算。

2,接著介紹了概率論的相關概念:
1)從聯合分佈、邊緣分佈,條件概率出發提出了概率的兩個規則(加和、乘積):即,邊緣分佈是聯合分佈的關於某一個變數的概率求和;聯合分佈是邊緣分佈和條件分佈的乘積。同時也提出了貝葉斯定理
2)從連續分佈出發解釋了加和和乘積規則(用積分代替了求和)
3)介紹了期望、方差、協方差:
期望:是函式的加權平均值,代表的是函式值相對概率的的加權值。(也有條件期望,同時可以根據大資料定律對期望進行估計)
方差:是函式值與期望差值平方的期望值,它度量了f(x)在均值E[f(x)]附近變化性的⼤⼩
協方差:它表⽰在多⼤程度上x和y會共同變化。如果獨立,協方差為0。

3,接著介紹了用概率論建模的兩種思路頻率學、貝葉斯概率(簡單地說,頻率學派與貝葉斯學派探討「不確定性」這件事時的出發點與立足點不同。頻率學派從「自然」角度出發,試圖直接為「事件」本身建模,即事件A在獨立重複試驗中發生的頻率趨於極限p,那麼這個極限就是該事件的概率。舉例而言,想要計算拋擲一枚硬幣時正面朝上的概率,我們需要不斷地拋擲硬幣,當拋擲次數趨向無窮時正面朝上的頻率即為正面朝上的概率。然而,貝葉斯學派並不從試圖刻畫「事件」本身,而從「觀察者」角度出發。貝葉斯學派並不試圖說「事件本身是隨機的」,或者「世界的本體帶有某種隨機性」,這套理論根本不言說關於「世界本體」的東西,而只是從「觀察者知識不完備」這一出發點開始,構造一套在貝葉斯概率論的框架下可以對不確定知識做出推斷的方法。頻率學派下說的「隨機事件」在貝葉斯學派看來,並不是「事件本身具有某種客觀的隨機性」,而是「觀察者不知道事件的結果」而已,只是「觀察者」知識狀態中尚未包含這一事件的結果。但是在這種情況下,觀察者又試圖通過已經觀察到的「證據」來推斷這一事件的結果,因此只能靠猜。貝葉斯概率論就想構建一套比較完備的框架用來描述最能服務於理性推斷這一目的的「猜的過程」。因此,在貝葉斯框架下,同一件事情對於知情者而言就是「確定事件」,對於不知情者而言就是「隨機事件」,隨機性並不源於事件本身是否發生,而只是描述觀察者對該事件的知識狀態。)。簡單地說:

頻率學方法假設事件的概率是有一個值的,可以用頻率去估計概率;而貝葉斯的想法是事件本身是隨機,我們有一個先驗認識,接著根據不斷的根據已知的資料修改我們的先驗認識。
1)先驗認識,後驗概率,似然函式:在觀察到資料之前,我們有⼀些關於引數w的假設,這以先驗概率p(w)的形式給出。能夠通過後驗概率p(w | D),在觀測到D之後估計w的不確定性。p(D | w)由觀測資料集D來估計,可以被看成引數向量w的函式,被稱為似然函式(likelihood function)。它表達了在不同的引數向量w下,觀測資料出現的可能性的⼤⼩。
2)似然函式p(D | w)都起著重要的作⽤。然⽽,在兩種觀點中,使⽤的⽅式有著本質的不同。在頻率學家的觀點中,w被認為是⼀個固定的引數,它的值由某種形式的“估計”來確定,這個估計的誤差通過考察可能的資料集D的概率分佈來得到。頻率學家⼴泛使⽤的⼀個估計是最⼤似然(maximum likelihood)估計,其中w的值是使似然函式p(D | w)達到最⼤值的w值。這對應於選擇使觀察到的資料集出現概率最⼤的w的值。在機器學習的⽂獻中,似然函式的負對數被叫做誤差函式(error function)。由於負對數是單調遞減的函式,最⼤化似然函式等價於最⼩化誤差函式。相反,從貝葉斯的觀點來看,只有⼀個數據集D(即實際觀測到的資料集),引數的不確定性通過w的概率分佈來表達。

4,接著介紹了高斯分佈:
主要介紹高斯分佈的定義,和高斯分佈的似然函式,並通過對似然函式的極大對引數進行估計(極大似然估計)-這是頻率學派的思想。

5,接著分別充頻率學派和貝葉斯學派進行曲線擬合:
頻率學派:根據極大似然估計進行擬合,等價於最小化損失數
貝葉斯學派:先給出一個引數的先驗認識,引數關於資料的後驗概率最大化建模,w的後驗概率正⽐於先驗分佈和似然函式的乘積。最⼤化後驗概率等價於最⼩化正則化的平⽅和誤差函式

(接著的模型選擇和維度災難就是我們一般的理解)

(三)決策論
1,決策論與概率論,模式識別的關係:概率論是如何提供⼀個⾃始⾄終的數學框架來量化和計算不確定性。當決策論與概率論結合的時候,在涉及到不確定性的情況下做出最優的決策,這在模式識別中經常遇到。
決策論的觀點:把p(Ck)稱為類Ck的先驗概率,把p(Ck | x)稱為對應的後驗概率。因此p(C1)表⽰在我們拍X光之前,⼀個⼈患癌症的概率。類似地,p(C1 | x)表⽰使⽤X光中包含的資訊通過貝葉斯定理修改之後的對應的後驗概率。⽬標是最⼩化把x分到錯誤類別中的可能性,那麼根據直覺,我們要選擇有最⼤後驗概率的類別)

2,最小化錯誤分類率:⽬標很簡單,即儘可能少地作出錯誤分類。可以這樣表述:如果把每個x分配到後驗概率p(Ck | x)最⼤的類別中,那麼我們分類錯誤的概率就會最⼩。(這就和概率論中後驗概率最大化建模相互一致)

3,最小化期望損失:損失函式也被稱為代價函式(cost function),是對於所有可能的決策或者動作可能產⽣的損失的⼀種整體的度量。我們的⽬標是最⼩化整體的損失。(這是對最小錯誤分類率的加強版,即是:對錯誤分類造成的損失進行度量)

4,拒絕選項:對很難做出決策的項處理

5,對分類的決策論觀點:把分類問題劃分成了兩個階段:推斷(inference)階段和決策(decision)階段。在推斷階段,我們使⽤訓練資料學習p(Ck | x)的模型。在接下來的決策階段,我們使⽤這些後驗概率來進⾏最優的分類。另⼀種可能的⽅法是,同時解決兩個問題,即簡單地學習⼀個函式,將輸⼊x直接對映為決策。這樣的函式被稱為判別函式(discriminant function)(對應的有三種方式以及對比)

6,迴歸的決策論觀點:最小化損失函式進行擬合(同樣也有三種方法)

(四)資訊理論
1,資訊理論與決策論、概率論的關係:資訊理論是對資訊量的度量,資訊量有概率來決定;同時資訊量的大小又與決策有關。

2,資訊量的度量以及平均資訊量熵的定義。
1)熵和最短編碼長度的這種關係是⼀種普遍的情形。⽆噪聲編碼定理表明,熵是傳輸⼀個隨機變數狀態值所需的⽐特位的下界。
2)定義了連續變數的資訊熵(微分熵),以及條件熵。
3)離散分佈的情況下,我們看到最⼤熵對應於變數的所有可能狀態的均勻分佈。考慮連續變數的最⼤熵。最⼤化微分熵的分佈是⾼斯分佈。
4),條件熵滿⾜下⾯的關係:H[x, y] = H[y | x] + H[x]

3,分佈p(x)和分佈q(x)之間的相對熵定義,我們可以把Kullback-Leibler散度看做兩個分佈p(x)和q(x)之間不相似程度的度量。
(我們想要對p(x)建模。我們可以試著使⽤⼀些引數分佈q(x | θ)來近似這個分佈。q(x | θ)由可調節的引數θ控制(例如⼀個多元⾼斯分佈)。⼀種確定θ的⽅式是最⼩化p(x)和q(x | θ)之間關於θ的Kullback-Leibler散度。同時,最⼩化Kullback-Leibler散度等價於最⼤化似然函式。)

4,變數x和變數y之間的互資訊的定義:聯合概率分佈與邊緣概率分佈乘積之間的Kullback-Leibler散度。
(互資訊和條件熵之間的關係為:I[x, y] = H[x] − H[x | y] = H[y] − H[y | x] :因此我們可以把互資訊看成由於知道y值⽽造成的x的不確定性的減⼩)

相關推薦

PRML第一筆記

ps:這是對模式識別與機器學習這本書的學習筆記,主要是一些自己的看法和總結(需要有一定的機器學習基礎,同時要結合PRML這本書) 模式識別:模式識別是指對錶徵事物或現象的各種形式的(數值的、文字的和邏輯關係的)資訊進行處理和分析,以對事物或現象進行描述、辨認、

第一筆記

java技術 nbsp 區分 ctrl+ .class clas 什麽 pan 大小 什麽是計算機程序:計算機完成某些功能產生的一系列有序指令集合 java技術包括: Java SE: 標準版 Java EE:企業版

數字圖像處理 第三版 第一筆記

認知 運動 第三版 相關 文學 獲取 探測器 工業 物理 1. 數字圖像和數字圖像處理 圖像可定義為一個函數,其自變量是坐標,因變量是灰度值。 當自變量和因變量全是離散值時,則稱該圖像是數字圖像。 數字圖像由有限數量的元素組成,這些元素成為像素,每個像素都有特定的位置和灰度

第三模塊-第一筆記(類實例化篇)

父類 bob converter 變量綁定 urn 有一個 self 優先級 作用 定義類與實例化 #定義父類 用於單位轉換 class ScaleConverter: def __init__(self,unit_from,unit_to,

【java並發編程實戰】第一筆記

ava 代碼 包含 時序 線程 test 原子性操作 形式 code 1.線程安全的定義 當多個線程訪問某個類時,不管允許環境采用何種調度方式或者這些線程如何交替執行,這個類都能表現出正確的行為 如果一個類既不包含任何域,也不包含任何對其他類中域的引用。則它一定是無狀態

C++ primer 第一筆記及習題

本章的Github地址:https://github.com/hwl19951007/Cpp_Primer_Exercise/tree/master/Chapter1 筆記 << 運算子為輸出運算子。接受左右兩個物件,左邊必須是一個ostream物件,右邊

程式設計師的自我修養-第一 筆記

1.計算機硬體的三個部件最為重要:中央處理器CPU,記憶體和IO控制晶片。 2.主機板上北橋晶片處理高速裝置。南橋晶片處理低速裝置,然後彙總後連線到北橋上。 3.多個處理之間共享比較昂貴的緩衝部件,只保留報個核心,並且以一個處理器的外包裝出售,售價比單核心的處理器只貴了一點,這就是多核處理器(Multi-

程序員的自我修養-第一 筆記

筆記 cif lwp 訪問 依靠 另一個 來講 避免 虛擬地址 1.計算機硬件的三個部件最為重要:中央處理器CPU,內存和IO控制芯片。 2.主板上北橋芯片處理高速設備。南橋芯片處理低速設備,然後匯總後連接到北橋上。 3.多個處理之間共享比較昂貴的緩沖部件,只保留報個核心,

<old_boy> python編程基礎 第一筆記

取余 輸出字符串 something \n 調試 分支 路徑 機械 %s #######################機械行業人員剛接觸python編程,現將學習筆記簡要記錄在本人博客中,以備自我復習使用。不足之處,還請各位大佬多多指教。#################

<old_boy> python程式設計基礎 第一筆記

#######################機械行業人員剛接觸python程式設計,現將學習筆記簡要記錄在本人部落格中,以備自我複習使用。不足之處,還請各位大佬多多指教。############################ 1. 程式語言介紹: 程式語言包括機器語言(01010101010),

組成原理第一筆記~

進位制數; 計算機  二進位制 但是 人們嫌麻煩 常用 八進位制或十六進位制 寫指令或程式。 存在 進位制的轉換。 八進位制 表示如下        十進位制整數 轉 2進位制,用2的次方相加 因此  十進位制 轉 八進位制(16

資料結構第一筆記

連結儲存結構:用一組任意 的儲存單元儲存資料元素,數 據元素之間的邏輯關係用指標 來表示 。 例:(bat, cat, eat) 1.3 資料結構的基本概念 資料結構的基本概念 0200 0208 0300 0325 … … … … bat 0200 cat 0325 eat ∧ 邏輯結構和儲存結構之間的關係

深度探索C++物件模型-----第一筆記

第一章:關於物件 1.1 C++模式   關於操作符過載的問題: type& operator[](int index) {     assert(index < dim && index >= 0); &nbs

深入分析java web技術內幕第一筆記

一、b/s架構的好處 b/s架構基於統一的http協議進行前後臺的資料互動。 http採用無狀態的短連線的通訊方式,一次請求完成一次資料互動。之後就斷開了。採用這種方式可以使得伺服器服務更多的使用者。 二、瀏覽器發起一個請求(瀏覽器回車後具體發生了什麼) 1.瀏覽器輸入ur

PRML第二筆記

這是關於PRML第二章的學習筆記。主要從內容思想的理解,具體的理論推導需要結合原文以及概率論的知識。這一章主要講概率分佈,概率分佈的⼀個作⽤是在給定有限次觀測x1, … , xN的前提下,對隨機變數x的概率分佈p(x)建模。這個問題被稱為密度估計,分為二元 多元

演算法(第四版)第一筆記

第一章 基礎 1.1 基礎程式設計模型  4 1.1.1 Java程式的基本結構  4 1.1.2 原始資料型別與表示式  6 1.1.3  語句  8 1.1.4  簡便記法  9 1.1.5  陣列  10 1.1.

Ruby on Rails Tutorial 第一筆記

-m toc 本地服務器 heroku 分享 lock 項目 lang cati 搭建開發環境 作者介紹了 Cloud9\ Coding.net 這樣的雲端開發環境 安裝 Rails 1. 新建 rails 應用 首先,調用 rails new 命令創建一個新的 R

PRML第一讀書小結

PRML第一章讀書小結     第一章用例子出發,較為簡單的引入了概率論、模型、決策、損失、資訊理論的問題,作為機器學習從業者,讀PRML除了鞏固已有基礎,還受到了很多新的啟發,下面將我收到的啟發總結如下。 1. 多項式曲線擬合問題 多項式擬合問題作為全書的第一個引例,通過此說明了很多關鍵的概念。 給定一個訓

PRML學習筆記第一

som 能力 ef7 最大 網絡模型 乘除 數學 優雅 相互 【轉】 PRML筆記 - 1.1介紹 模式識別的目標 自動從數據中發現潛在規律,以利用這些規律做後續操作,如數據分類等。 模型選擇和參數調節 類似的一族規律通常可以以一種模型的形式為表達,選擇合適模型的過

PRML筆記 第一緒論

1概率論: P(Y=yj)=rj,P(X=xi)=ci. X取值xi且Y 取值yj的概率被記作p(X = xi; Y = yj),被稱為X = xi和Y = yj的聯合概率(joint probability)。它的計算方法為落在單元格i; j的點的數量與點的總數的比