1. 程式人生 > 其它 >西瓜書讀書筆記

西瓜書讀書筆記

1.緒論

1.1 引言

機器學習所研究的主要內容,是關於在計算機上從資料中產生"模 型" (model) 的演算法,即"學習演算法" (learning algorithm)

1.2基本術語

資料集:這組記錄的集合。
樣本sample(示例instance): 資料集合中的每條記錄或者物件的描述。
屬性" (attribute) 或"特徵 (feature): 反映事件或物件在某方面的表現或性質的事項。
屬性值:屬性上的取值
屬性空間(attribute space)、 "樣本空間" (samp1e space)或"輸入空間: 屬性張成的空間
特徵向量:由於空間中的每個點對應一個座標向量
標記空間/輸出空間:(xi, yi) 表示第i個樣例, 其中執 yi∈Y 是示例 Xi 的標記, Y 是所有標記的集合。

分類:預測值是離散值,例如 好瓜,壞瓜
二分類:通常稱其中一個類為 "Æ類" (positive class 另一個類為"反類" (negative class)
多分類:涉及多個類別時

1.3 假設空間

歸納學習 (inductive learning:歸納(induction)與橫繹(deductio)是科學推理的兩大基本手段.前者是從 特殊到一般的"泛化" (generalization)過程,即從具體的事實歸結出一般性規 律;後者則是從一般到特殊的"特化" (specializatio叫過程,即從基礎原理推演 出具體狀況.例如,在數學公理系鏡中,基於一組公理和推理規則推匯出與之 相洽的定理,這是演繹;而"從樣例中學習"顯然是一個歸納的過程。
概念學習:廣義的歸納學習大體相當於從樣例中學習, 而狹義的歸納學習則要求從訓練資料中學得概念(concept)

假設空間:監督學習的目的在於學習一個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間(hypothesis space)。假設空間的確定意味著學習範圍的確定。

1.4歸納偏好

歸納偏好:機器學習演算法在學習過程中對某種型別假設的偏好
奧卡姆剃刀:若有多個假設和觀察一致,選擇最簡單的那個。(但有時奧卡姆剃刀也會有不適用,當無法判斷哪個更簡單時,需要其他機制來解決這個問題)

2 模型評估與選擇

2.1 經驗誤差與過擬合

錯誤率(Error Rate):分類錯誤的樣本數 / 樣本總數
精度(Accuracy):1 - 錯誤率
誤差(Error):學習器實際預測輸出和樣本真實輸出之間的差異
訓練誤差(Training Error)/經驗誤差(Empirical Error):學習器在訓練集上的誤差
泛化誤差(Generalization Error):學習器在新樣本上的誤差
過擬合(Overfitting):學習器將訓練樣本學的太好,導致泛化效能下降。過擬合無法避免只能緩解
欠擬合(Underfitting):學習器學習能力低下造成

2.2評估方法

2.2.1 留出法

留出法: 直接將資料集劃分為兩個互斥的集合,一個為訓練集一個為測試集。且訓練/測試集的劃分要儘可能保持資料分佈的一致性,避免 困資料劃分過程引入額外的偏差而對最終結果產生影響,單次使用留出法得到的估計結果往往不夠穩定可靠,在使用留出法時,一般要採用若干次隨機劃分、重複進行實驗評估後取平均值作 為留出法的評估結果.

2.2.2 交叉驗證法

交叉驗證法:先將資料集 D 劃分為 k 個大小相似的 互斥子集,例如下圖

將資料劃分為K份,保證每份資料不重疊,全部資料不遺漏。分類任務中,劃分過程儘量保證每份預測的類別比例相同。
特例當k = m時候得留一法
留一法不受隨機樣本的影響,評估結果一般來說較為準確。但是資料量較大時候會計算會消耗很大

2.2.3 自助法

自助法:就是將樣本分為兩塊D為整體樣本D1為空樣本
將D中的樣本隨機抽取到D1中抽取n次,然後將D1作為訓練集D作為測試集,雖然有重複,但是通過計算
還是有36%沒有出現在樣本中,所以可以將D作為測試集,自助法只適合大量資料的情況,因為小量資料沒發劃分訓練集和測試集

2.3 效能度量

錯誤率(error rate):分類錯誤的樣本數佔樣本總數的比例;

精度(accuracy):分類正確的樣本數佔樣本總數的比例;

查準率、查全率與F1:
對於二分類問題,根據真實類別與機器學習預測結果:真正例(true positive)、假正例(false positive)、真反例(true negative)和 假反例(false negative)。

查準率:是基於「預測資料」,考察「真正例」的佔比。
查全率:是基於「真實資料」,考察「真正例」的佔比。
查準率和查全率是一對矛盾的度量,查準率越高查全率越低,反之亦然!


若一個學習器的曲線被另一個學習器的曲線完全 包住 則後者效能優於前者(A >C)。可以理解為對於C中任意一點,A中總可以至少找到一個比此點對應的查準率值和查全率值都要大。
若兩個曲線有交叉則無法確定,只能在具體的查準率或查全率條件下進行比較,後為了方便比較設計了平衡點 (Break-Event Point,簡稱 BEP),查準率=查全率

2.4 比較檢驗

比較檢驗:在比較學習器泛化效能的過程中,統計假設檢驗(hypothesis test)為學習器效能比較提供了重要依據,即若A在某測試集上的效能優於B,那A學習器比B好的把握有多大。

假設檢驗:關於單個學習器泛化效能的假設進行檢驗;假設測試錯誤率為a,通過統計學公式計算可得,在A概率下泛化錯誤率小於等於a,在1-A概率下泛化錯誤率大於a。概率A反映了結論的“置信度”(confidence)

交叉驗證t檢驗:

相比於假設檢驗是得到單個學習器的泛化錯誤率的大致範圍假設,交叉檢驗方法就是在比較A、B兩學習器效能的優劣。

McNemar 檢驗:

若我們做的假設是兩學習器效能相同?則應有 e01= e10,那麼變數 |e01 - e10| 應當服從正態分佈,且均值為 1,方差為 e01 十 e10.回此變數服從自由度為 1 的 χ2 分佈,即標準正態分佈變數的平方.給定顯著度 α,當以 上變數恆小於臨界值功時,不能拒絕假設,即認為兩學習器的效能沒有顯著差 別;否則拒絕假設,即認為兩者效能有顯著差別

Friedman 檢驗與 Nenenyl 後續檢驗:
原始Friedman 檢驗:

TF 服從自由度為 k-1 和 (k-1)(N-1)的F分佈。
Nemenyi後續檢驗:當假設“所有演算法的效能相同”被拒絕的時候,需採用後續檢驗來進一步區分各演算法,該演算法計算出平均序值差別的臨界值域,若兩個演算法的平均序值之差超過臨界值域,則應以相應的置信度拒絕“兩個演算法效能相同”這一假設。

2.5 偏差與方差

方差:使用樣本數相同的不同訓練集產生的方差。

偏差:期望輸出與真實標記的差別。

噪聲:資料集標記和真實標記的方差。