西瓜書讀書筆記

阿新 • • 發佈：2021-07-13

1.緒論

1.1 引言

機器學習所研究的主要內容，是關於在計算機上從資料中產生"模型" (model) 的演算法，即"學習演算法" (learning algorithm)

1.2基本術語

資料集：這組記錄的集合。
樣本sample（示例instance）: 資料集合中的每條記錄或者物件的描述。
屬性" (attribute) 或"特徵 (feature)：反映事件或物件在某方面的表現或性質的事項。
屬性值：屬性上的取值
屬性空間(attribute space)、 "樣本空間" (samp1e space)或"輸入空間：屬性張成的空間
特徵向量：由於空間中的每個點對應一個座標向量
標記空間/輸出空間：(xi， yi) 表示第i個樣例, 其中執 yi∈Y 是示例 Xi 的標記， Y 是所有標記的集合。

分類:預測值是離散值，例如好瓜，壞瓜
二分類：通常稱其中一個類為 "Æ類" (positive class 另一個類為"反類" (negative class)
多分類：涉及多個類別時

1.3 假設空間

歸納學習 (inductive learning：歸納(induction)與橫繹(deductio)是科學推理的兩大基本手段.前者是從特殊到一般的"泛化" (generalization)過程，即從具體的事實歸結出一般性規律;後者則是從一般到特殊的"特化" (specializatio叫過程，即從基礎原理推演出具體狀況.例如，在數學公理系鏡中，基於一組公理和推理規則推匯出與之相洽的定理，這是演繹;而"從樣例中學習"顯然是一個歸納的過程。
概念學習:廣義的歸納學習大體相當於從樣例中學習，而狹義的歸納學習則要求從訓練資料中學得概念(concept)

假設空間：監督學習的目的在於學習一個由輸入到輸出的對映，這一對映由模型來表示。換句話說，學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合，這個集合就是假設空間（hypothesis space）。假設空間的確定意味著學習範圍的確定。

1.4歸納偏好

歸納偏好：機器學習演算法在學習過程中對某種型別假設的偏好
奧卡姆剃刀：若有多個假設和觀察一致，選擇最簡單的那個。（但有時奧卡姆剃刀也會有不適用，當無法判斷哪個更簡單時，需要其他機制來解決這個問題）

2 模型評估與選擇

2.1 經驗誤差與過擬合

錯誤率（Error Rate）：分類錯誤的樣本數 / 樣本總數
精度（Accuracy）：1 - 錯誤率
誤差（Error）：學習器實際預測輸出和樣本真實輸出之間的差異
訓練誤差（Training Error）/經驗誤差（Empirical Error）：學習器在訓練集上的誤差
泛化誤差（Generalization Error）：學習器在新樣本上的誤差
過擬合（Overfitting）：學習器將訓練樣本學的太好，導致泛化效能下降。過擬合無法避免只能緩解
欠擬合（Underfitting）：學習器學習能力低下造成

2.2評估方法

2.2.1 留出法

留出法: 直接將資料集劃分為兩個互斥的集合，一個為訓練集一個為測試集。且訓練/測試集的劃分要儘可能保持資料分佈的一致性，避免困資料劃分過程引入額外的偏差而對最終結果產生影響，單次使用留出法得到的估計結果往往不夠穩定可靠，在使用留出法時，一般要採用若干次隨機劃分、重複進行實驗評估後取平均值作為留出法的評估結果.

2.2.2 交叉驗證法

交叉驗證法:先將資料集 D 劃分為 k 個大小相似的互斥子集，例如下圖

將資料劃分為K份，保證每份資料不重疊，全部資料不遺漏。分類任務中，劃分過程儘量保證每份預測的類別比例相同。
特例當k = m時候得留一法
留一法不受隨機樣本的影響，評估結果一般來說較為準確。但是資料量較大時候會計算會消耗很大

2.2.3 自助法

自助法：就是將樣本分為兩塊D為整體樣本D1為空樣本
將D中的樣本隨機抽取到D1中抽取n次，然後將D1作為訓練集D作為測試集，雖然有重複，但是通過計算
還是有36%沒有出現在樣本中，所以可以將D作為測試集，自助法只適合大量資料的情況，因為小量資料沒發劃分訓練集和測試集

2.3 效能度量

錯誤率（error rate）：分類錯誤的樣本數佔樣本總數的比例；

精度（accuracy）：分類正確的樣本數佔樣本總數的比例；

查準率、查全率與F1：
對於二分類問題，根據真實類別與機器學習預測結果：真正例（true positive）、假正例（false positive）、真反例（true negative）和假反例（false negative）。

查準率：是基於「預測資料」，考察「真正例」的佔比。
查全率：是基於「真實資料」，考察「真正例」的佔比。
查準率和查全率是一對矛盾的度量，查準率越高查全率越低，反之亦然！

若一個學習器的曲線被另一個學習器的曲線完全包住則後者效能優於前者（A >C）。可以理解為對於C中任意一點，A中總可以至少找到一個比此點對應的查準率值和查全率值都要大。
若兩個曲線有交叉則無法確定，只能在具體的查準率或查全率條件下進行比較，後為了方便比較設計了平衡點 (Break-Event Point，簡稱 BEP)，查準率=查全率

2.4 比較檢驗

比較檢驗：在比較學習器泛化效能的過程中，統計假設檢驗（hypothesis test）為學習器效能比較提供了重要依據，即若A在某測試集上的效能優於B，那A學習器比B好的把握有多大。

假設檢驗：關於單個學習器泛化效能的假設進行檢驗；假設測試錯誤率為a，通過統計學公式計算可得，在A概率下泛化錯誤率小於等於a，在1-A概率下泛化錯誤率大於a。概率A反映了結論的“置信度”（confidence）

交叉驗證t檢驗：

相比於假設檢驗是得到單個學習器的泛化錯誤率的大致範圍假設，交叉檢驗方法就是在比較A、B兩學習器效能的優劣。

McNemar 檢驗:

若我們做的假設是兩學習器效能相同?則應有 e01= e10，那麼變數 |e01 - e10| 應當服從正態分佈，且均值為 1，方差為 e01 十 e10.回此變數服從自由度為 1 的 χ2 分佈,即標準正態分佈變數的平方.給定顯著度 α，當以上變數恆小於臨界值功時，不能拒絕假設，即認為兩學習器的效能沒有顯著差別;否則拒絕假設，即認為兩者效能有顯著差別

Friedman 檢驗與 Nenenyl 後續檢驗:
原始Friedman 檢驗:

TF 服從自由度為 k-1 和 (k-1)(N-1)的F分佈。
Nemenyi後續檢驗：當假設“所有演算法的效能相同”被拒絕的時候，需採用後續檢驗來進一步區分各演算法，該演算法計算出平均序值差別的臨界值域，若兩個演算法的平均序值之差超過臨界值域，則應以相應的置信度拒絕“兩個演算法效能相同”這一假設。

2.5 偏差與方差

方差：使用樣本數相同的不同訓練集產生的方差。

偏差：期望輸出與真實標記的差別。

噪聲：資料集標記和真實標記的方差。

西瓜書讀書筆記

1.緒論

1.1 引言

1.2基本術語

1.3 假設空間

1.4歸納偏好

2 模型評估與選擇

2.1 經驗誤差與過擬合

2.2評估方法

2.2.1 留出法

2.2.2 交叉驗證法

2.2.3 自助法

2.3 效能度量

2.4 比較檢驗

2.5 偏差與方差

西瓜書讀書筆記

西瓜書讀書筆記 task04

紅寶書讀書筆記

機器學習小白上路，過去一個月在西瓜書上學習筆記與感悟。

刷穿李煜東藍書（讀書筆記）更新中

【讀書筆記】計算機圖形學基礎（虎書）讀書筆記專案介紹

【讀書筆記】計算機圖形學基礎（虎書）第2章 - 數學工具

【讀書筆記】計算機圖形學基礎（虎書）第3章 - 點陣圖

【讀書筆記】計算機圖形學基礎（虎書）第4章 - 光線追蹤

【讀書筆記】計算機圖形學基礎（虎書）第8章 - 圖形管線

【讀書筆記】計算機圖形學基礎（虎書）第10章 - 表面著色(Surface shading)

西瓜書第一章學習筆記

西瓜書第二章學習筆記- 上

【讀書筆記】計算機圖形學基礎（虎書）第11章 - 紋理對映(Texture Mapping)

西瓜書筆記

HeadFirst 讀書筆記

JVM資料區域與垃圾收集<深入理解JVM讀書筆記>

高效能mysql讀書筆記（四） Mysql高階特性

《SQL初學者指南》讀書筆記

MySQL必知必會——第27章全球化和本地化讀書筆記

西瓜書讀書筆記

1.緒論

1.1 引言

1.2基本術語

1.3 假設空間

1.4歸納偏好

2 模型評估與選擇

2.1 經驗誤差與過擬合

2.2評估方法

2.2.1 留出法

2.2.2 交叉驗證法

2.2.3 自助法

2.3 效能度量

2.4 比較檢驗

2.5 偏差與方差

相關推薦