《PRML》第一章讀書筆記.2

阿新 • • 發佈：2019-01-22

模式選擇

回顧前面的多項式擬合，多項式的階數決定了模型的複雜度。另外，正則係數λ 的大小限制了模型的複雜度。那麼什麼樣的模型是最好的模型呢？等價於確定每一個超引數的值。

1. 交叉驗證

將資料按比例分為S（下圖中S=4）份，每次訓練使用其中的一份作為驗證集，其餘作為訓練集。對每一個模型Mi進行4次訓練，得到S個錯誤率，對S各錯誤率求平均值即得到模型的綜合錯誤率ηi。

對可變引數的n個模型，執行上述訓練，選n個模型中錯誤率最小的模型作為最終模型。

2.資訊量的判別

增加引數可使得似然概率增大，但是卻引入了額外的變數。引入額外變數是的模型過於複雜。AIC和BIC都在目標式中添加了模型引數個數的懲罰項。

AIC：Akaike information criterion

lnp(D|WML)−M

在損失函式中加上引數個數的懲罰項。其中前半部分表示擬合最佳時的對數似然，M表示可訓練引數數量。

維度詛咒

低維不可分的問題，對映到高維以後就可以區分！！！

例子：如何給圖中x分類（紅綠藍）。（原始資料為十維，圖中畫出其中兩維）

簡單的方法是將資料分塊，資料點落在的塊中哪一個類別的資料最多，分為哪一類。（類似Knn：找到目標距離最近的k個樣本，取k個樣本中類別最多的）

隨著維度的增加，分塊的數量呈指數被增加！！但事情況是，無法找到如此多的訓練資料填到每一個分塊中。

球體積計算

二維：V=πr2

三維：V=43πr3

D維：V=KrD

D維下球殼體積所佔整個球體積的比例：

V(r)−V(r−ϵ)V(r)=1−(1−ϵr)D
取r=1，對上式作圖：

從圖中可以看出：隨著維度增加，球的體積逐漸聚集到球殼上。

所以，原本區分並不明顯的樣本，由於維度的增加，其在特定維度上的特徵也變得更加清晰。

另一個問題：高維度下的等間距劃分變得十分不嚴格。

Decision Theory

最小化誤分率
使用帶權重的損失函式（最小化期望損失）

考慮癌症診斷中的兩個問題的代價：
①把患者診斷為健康
②把健康人診斷為幻癌症
設定拒絕條件: 兩條線的和為1，當未超過閾值θ時，始終拒絕。

Information Theory （資訊理論）

資訊量（多少）的定義：可看做對x值的“驚喜程度”。確定的事：0；比較確定的事：較少的資訊量；很不確定的事：較多的資訊量。

熵（Entropy）：有兩個獨立變數x、y，觀察到兩個變數獲得的資訊為h(x)、h(y)，則整體資訊應為兩個變數獲得資訊的和h(x,y)=h(x)+h(y)。另外，對於獨立變數，聯合概率p(x,y)=p(x)p(y)。根據這兩個條件，h的形式應為：

h(x)=−log2p(x)H[x]=−∑xp(x)log2p(x)

熵的應用：最大熵原理。
假設有100塊錢放在下面兩個盒子中，那麼在黃色盒子中的概率是多少？
在其中一個盒子的概率與整體熵的關係：

按照常識，在沒有任何資訊的前提下，我們一定會猜測在兩個盒子中的概率都為0.5。當概率相等時，熵正好達到最大。

其他應用：詞性標註、短語識別、指代消解、語法分析、機器翻譯、文字分類、問題回答、語言模型。

條件熵與互資訊：

如果兩個變數相互獨立，則其聯合概率等於其邊緣概率的乘積；否則，可通過其聯合概率與邊緣概率乘積來判斷他它們的分佈是否接近。

《PRML》第一章讀書筆記.2

模式選擇回顧前面的多項式擬合，多項式的階數決定了模型的複雜度。另外，正則係數λ 的大小限制了模型的複雜度。那麼什麼樣的模型是最好的模型呢？等價於確定每一個超引數的值。 1. 交叉驗證將資料按比例分為S（下圖中S=4）份，每次訓練使

《現代前端技術解析》第一章讀書筆記（未完成）

服務異步網絡請求會話開始註冊復雜技術顯示　　今天是2017年6月26日，星期一，開始從第一章看起。第一章主要講的是前端技術的發展概況以及一些必須掌握的瀏覽器基礎知識與常用開發技術。　　頁面內容多而復雜，為了保證開發效率，我們可以借助符合特定場景的前端框架

產品經理的那些事第一章讀書筆記

工作內容完成個人評審深入數據直銷分析 img 1.一個產品經理的信仰：好產品能改變世界。 2.為什麽要做產品經理：因為熱愛，改變世界的方法有很多，技術可以改變世界，好的產品也可以，當然還有其他，但我熱愛產品，一件事只有熱愛了，才能持續不斷的去做好，所以我

js設計模式第一章讀書筆記

1、簡單的驗證js function checkName(){ //驗證姓名 } function checkEmail(){ //驗證郵箱 } function checkPassword(){ //驗證密碼 } 上面的程式碼，建立了3個全域性變數，有可能被別人覆蓋

《統計學習方法》李航著第一章讀書筆記

有一個公眾號叫 “夕小瑤的賣萌屋” ，這位公眾號推薦說李航的《統計學習方法》是一門基礎課。因此我從網上找了找資源，著手去看了。覺得寫得確實很棒。首先，以前看機器學習理論總是單獨看，分著看，覺得關聯規則就是關聯規則，神經網路就是神經網路。但是這本書能讓我有著一種想法，就是將整個機

《第二行程式碼》第一章讀書筆記

作者：JiangWeiHu 來源：CSDN 筆者前言最近在讀郭霖大神的第二行程式碼，藉助第二行程式碼，在這裡我認真梳理Android知識，為了形成自己的知識體系。堅持寫一系列關於第二行程式碼的學習筆記，一是來提升自己的學習能力，堅持每天學習; 二是給自己整理

python高效能程式設計第一章讀書筆記

計算機底層元件分為三大基本部分：計算單元、儲存單元以及兩者之間的連線。計算單元：具有將接收到的任意輸入轉換成輸出的能力以及改變當前處理狀態的能力。CPU是最常見的計算單元。它的主要屬性是其每個週期能進行的運算元量以及每秒能完成多少個週期。第一個屬性通過每週期完成的指令數（IP

《管理的常識》第一章讀書筆記一

今天在傑總髮的朋友圈上看到陳春華教授的《管理的常識》的圖片，百度了一下，發現評價很好，於是下載了個電子版，試讀了一章。書果然寫的很棒，邊讀邊結合自己的經歷、見聞進行思考，受益良多。好書一定要慢慢讀，計劃本週每天一章，每天讀

《自控力》【美】凱利·麥格尼格爾第一章讀書筆記

題記：在CSDN潛水已經快兩年了，看了很多給力的部落格，學到了很多收穫了很多，當時就覺得寫部落格是件好事，即幫到了別人也成長了自己，所以也有寫點部落格的想法。可快兩年過去了，自己的部落格除了草啥都沒有，一直都沒能寫點啥，原因有兩點，一是自己懂得太少，怕的

《利用Python進行資料分析》第一章讀書筆記

一、重要的Python庫 1. NumPy(Python科學計算的基礎包) 2. pandas（本書用得最多pandas物件是DataFrame） 3. matplotlib（繪製資料圖表得Python庫） 4. IPython（目的是提

謝希仁《計算機網路》第七版第一章讀書筆記

計算機網路主要是由一些通用的、可程式設計的硬體（也就是說一定含有CPU）互連而成的。計算機網路具有通訊功能，但通訊功能並不是計算機網路最主要的功能。分類：按作用範圍分：廣域網 (Wide Area Network) WAN 都會網路 (Metropol

《Ansible自動化運維：技術與佳實踐》第一章讀書筆記

Ansible 架構及特點第一章主要講的是 Ansible 架構及特點，主要包含以下內容： Ansible 軟體 Ansible 架構模式 Ansible 特性 Ansible 軟體 Ansible 的編排引擎可以完成配置管理、流程控制、資源部署等工作。 Ansible 基於 Python語言實現，由

PRML第一章讀書小結

PRML第一章讀書小結第一章用例子出發，較為簡單的引入了概率論、模型、決策、損失、資訊理論的問題，作為機器學習從業者，讀PRML除了鞏固已有基礎，還受到了很多新的啟發，下面將我收到的啟發總結如下。 1. 多項式曲線擬合問題多項式擬合問題作為全書的第一個引例，通過此說明了很多關鍵的概念。給定一個訓

高手讀書筆記-2-7章

前言 1.天才和瘋子的一線之隔 2.巨人的工具 3.決策的藝術 4.資料統治世界 5.智識的尺度 6.洞見未來 7.總結一.天才和瘋子的一線之隔追逐者，追逐心態的三個來源第一個來源是跟別人比第二個來源是，我們總認為要想辦成更多的事，就得動用更多的資源第三個來源是，我們單純就是

PRML第一章筆記

ps：這是對模式識別與機器學習這本書的學習筆記，主要是一些自己的看法和總結（需要有一定的機器學習基礎，同時要結合PRML這本書）模式識別：模式識別是指對錶徵事物或現象的各種形式的(數值的、文字的和邏輯關係的)資訊進行處理和分析，以對事物或現象進行描述、辨認、

Ajax與Comet-JavaScript高級程序設計第21章讀書筆記(1)

set activex .html 規範 sta php 協議 num 刷新 Ajax(Asynchronous Javascript + XML)技術的核心是XMLHttpRequest對象,即: XHR。雖然名字中包含XML，但它所指的僅僅是這種無須刷新頁面即可從服務器

《構建之法》第四章讀書筆記

解決更多發現開發空白知識點相互文字人的本章理論和知識點有：代碼規範、極限編程、結對編程、兩人合作的不同階段、影響他人的技巧一、代碼規範 1、代碼風格規範。主要是文字上的規定，看似表面文章，實際上非常重要。代碼風格的原則是：簡明，易讀，無二義性。包括了

《構建之法》第五章讀書筆記

收集數據效率衡量配置測試人在模式輸出發現第5章團隊和流程　一、非團隊和團隊團隊的共同特點： 1、團隊有一致的集體目標，團隊要一起完成這目標。一個團隊的成員不一定要同時工作，例如接力跑。 2、團隊成員有各自的分工，互相依賴合作，共同完成任務。二、軟件

數據結構（嚴蔚敏、吳偉民）——讀書筆記-2、線性表及其基本運算、順序存儲結構

content pri 線性時間復雜度 length 將他 ron 個數 p s 第二章線性表 2.1 線性表及其基本運算 2.2 線性表的順序存儲結構 2.3 線性表的鏈式存儲結構 1、線性表：是n個數據元素的有限序列。

《現代前端技術解析》第七章讀書筆記

應用開發理念 mvp css3 維護成本聯網不足 pan 做的　　《現代前端技術解析》是張成文寫的一本書，2017年4月出版的。先看的最後一章（第七章），第七章主要講的是未來前端技術的發展趨勢及如何成為一名優秀的前端工程師。　　過去幾年，前端主流技術框架發展極快

《PRML》第一章 讀書筆記.2

模式選擇

1. 交叉驗證

2.資訊量的判別

維度詛咒

球體積計算

Decision Theory

Information Theory （資訊理論）

條件熵與互資訊：

相關推薦

《PRML》第一章讀書筆記.2