1. 程式人生 > >西瓜書閱讀記(一)

西瓜書閱讀記(一)

一、緒論

生活中我們經常會根據自己的經驗對新的事物做出判斷,我們希望計算機也能通過“學習”獲得“經驗”從而對新的資料進行判斷。機器學習的主要內容便是在計算機上通過從資料中產生“模型”的演算法,即“學習演算法”。有了學習演算法,提供一些“經驗”資料,基於這些資料產生模型,在得到新的資料時,模型會提供給我們相應的判斷。

基本概念

(1)資料集D:資料記錄的集合;(2)示例/樣本x:每一條記錄;(3)屬性/特徵:反映事件或性質在某方面的表現或性質的事項;(4):屬性值/特徵值:屬性的取值;(5)屬性空間/樣本空間/輸入空間X:屬性張成的空間;(6)特徵向量:在屬性空間中每個示例對應的一個座標向量;(7)維數d

:屬性的個數;(8)學習/訓練:通過執行某個學習演算法從資料中獲得模型的過程;(9)假設:學得模型對應了關於資料的某種潛在規律;(10)真相/真實:這種潛在規律自身;(11)標記y:訓練樣本的“結果”資訊;(12)樣例(x,y):擁有標記的示例;(13)標記空間/輸出空間Y:所有標記的集合。

eg:收集了一批關於西瓜的資料:資料集D={(色澤=青綠;根蒂=硬挺;敲聲=清脆),(色澤=烏黑;根蒂=稍蜷;敲聲=沉悶)};其中樣本x有兩條;屬性有3個:色澤、根蒂、敲聲;屬性空間X的維數d是3;除了示例資料外,還需要樣本空間Y=(好瓜,壞瓜),則對應的((色澤=青綠;根蒂=硬挺;敲聲=清脆),好瓜)表示一個樣例。

(14)學習任務:根據訓練資料是否有標記可以分為:

(I)監督學習:訓練資料有標記資訊;

    根據預測的標記是否離散可分為:(a).分類:預測的是離散值;類別數為2時:二分類任務;大於2時:多分類任務(b)迴歸:預測是連續值

(II)無監督學習:訓練資料無標記資訊。聚類:將訓練集中的示例分為若干組。

通過對訓練集進行學習,建立一個從輸入空間X到輸出空間Y的對映f:X-->Y

其中二分類任務,Y={-1,+1}或{0,1};多分類任務:|Y|>2;迴歸任務:Y=R(R為實數集)

(15)測試:學得模型後,使用其進行預測的過程成為“測試”;(16)測試樣本:被預測的樣本;

(17)泛化:學得模型使用於新樣本的能力;(18)獨立同分布:假設樣本空間中全體樣本服從一個未知分佈D,獲得的每個樣本都是從獨立的從這個分佈上取樣獲得的,即獨立同分布。

假設空間

科學推理的兩種手段:

(1)歸納:從特殊到一般的“泛化”過程;eg:從樣例中學習(2)演繹:從一般到特殊的“特化”過程,eg:基於公理和推理規則推導定理。

∵從樣例中學習是歸納過程,∴也成為“歸納學習”

歸納學習:

(1)廣義:相當於從樣例中學習;

(2)狹義:要求從訓練資料中獲得概念,也稱為“概念學習”

假設空間:

所有假設組成的空間:eg:西瓜問題中只有三個屬性,每個屬性有三種取值,則假設空間規模大小應該為:4*4*4+1=65(4代表3種取值加上萬用字元,1代表根本極端情況概念不成立)

學習過程:

在假設空間中進行搜尋的過程,搜尋目標是找到與訓練集“匹配”的假設。

版本空間:

可能有多個假設與訓練集一致,即存在著一個與訓練集一致的“假設集合”。

歸納偏好

(1)問題:在一個版本空間中,一個模型在面對新樣本的時候會產生不同的輸出,即該新樣本可匹配版本空間中不同的假設。那麼該採用哪種模型或假設呢?

解決:根據其“歸納偏好”得到模型,任何一個機器學習演算法在學習過程中都會對某種型別假設有偏好,從而得到確定的學習結果。

(2)問題:學習演算法怎麼選擇合適的偏好呢?也就是說有沒有“一般性的原則”引導演算法確立“正確的”偏好呢?

解決:常用的是“奧卡姆剃刀原則”:若有多個假設與觀察一致,選擇最簡單的那個。

(3)問題:對於一個學習演算法,它在某些問題上比另一種學習演算法好,但必然存在另外一些問題,另一種學習演算法比該學習演算法更好。考慮二分類問題,若所有可能的真實目標函式均勻分佈,則通過推導學習演算法的誤差可以發現總誤差與學習演算法無關!

NFL定理(沒有免費的午餐定理):在所有問題出現的機會相同的前提下,無論學習演算法A多麼聰明,學習演算法B多麼笨拙,它們的期望性是相同的!

解決:實際情況下,我們只需考慮我們面對的問題,只需要選擇最適合面對問題的演算法即可。

發展歷程

五十年代:推理器;七十年代:知識期;八十年代:學習期

1.二十世紀五十年代初:已出現機器學習的相關研究:A.Samuel的跳棋程式;

2.五十年代中後期:基於神經網路的“連線主義”學習:感知機、Adaline;

3.六七十年代:基於邏輯表示的“符號主義”學習:結構學習系統、基於邏輯的歸納學習系統、概念學習系統;

       以決策理論為基礎的學習技術級強化學習技術

二十世紀五十年代到七十年代初:人工智慧處於“推理期”;

七十年代中期:人工智慧進入了“知識期”,大量專家系統問世;

八十年代:機器學習成為一個獨立的學科領域;

4.八十年代:從樣例中學習的一大主流:符號主義學習:決策樹、基於邏輯的學習(歸納邏輯程式設計ILP);

5.九十年代中期之前:從樣例中學習的另一大主流技術是基於神經網路的連線主義學習,重新得到關注;

5.九十年代中期:統計學習(代表技術:支援向量機SVM及核方法);

6.二十一世紀初:連線主義學捲土重來,掀起了深度學習的熱潮。

閱讀材料

1)         第一本機器學習專業期刊:Machine Learning

2)         人工智慧領域的權威期刊:Artificial  Intelligence

3)         第一本機器學習專門性教材:Mitchell, 1997

4)         出色的入門讀物:Duda et al.,2001;  Alpaydin, 2004;  Flach, 2012; 

5)         進階讀物:Hastie et al. , 2009;

6)         適合貝葉斯學習偏愛者:Bishop, 2006

7)         基於WEKA撰寫的入門讀物,有助於初學者通過WEKA實踐快速掌握常用的機器學習演算法:Witten et al.,2011

8)         國際機器學習會議:ICML

9)         國際神經資訊處理系統會議:NIPS

10)     國際學習理論會議:COLT

11)     國際學術期刊Journal of Machine Learning Research 和 Machine Learning

12)     人工智慧領域的重要會議:IJCAI, AAAI

13)     人工智慧領域重要期刊:Artifical Intelligence;  Journal of Artifical Intelligence Research

14)     資料探勘領域重要會議:KDD, ICDM

15)     資料探勘領域重要期刊:ACM Transactions on Knowledge Discovery from Data;  Data Mining and Knowledge Discovery

16)     計算機視覺和模式識別領域的重要會議:CVPR

17)     計算機視覺與模式識別領域的重要期刊:IEEE Transactions on Pattern  Analysis and Machine Intelligence

18)     神經網路領域的重要期刊:Neural Computation, IEEE Transactions on Neural Networks and Learning System

19)     統計學領域的重要期刊:Annals of Statistics

20)     中國機器學習大會:CCML

21)     中國“機器學習及其應用”研討會:MLA