西瓜書閱讀記(一）

阿新 • • 發佈：2018-11-10

一、緒論

生活中我們經常會根據自己的經驗對新的事物做出判斷，我們希望計算機也能通過“學習”獲得“經驗”從而對新的資料進行判斷。機器學習的主要內容便是在計算機上通過從資料中產生“模型”的演算法，即“學習演算法”。有了學習演算法，提供一些“經驗”資料，基於這些資料產生模型，在得到新的資料時，模型會提供給我們相應的判斷。

【基本概念】

（1）資料集D：資料記錄的集合；（2）示例/樣本x：每一條記錄；（3）屬性/特徵：反映事件或性質在某方面的表現或性質的事項；（4）：屬性值/特徵值：屬性的取值；（5）屬性空間/樣本空間/輸入空間X：屬性張成的空間；（6）特徵向量：在屬性空間中每個示例對應的一個座標向量；（7）維數d

：屬性的個數；（8）學習/訓練：通過執行某個學習演算法從資料中獲得模型的過程；（9）假設：學得模型對應了關於資料的某種潛在規律；（10）真相/真實：這種潛在規律自身；（11）標記y：訓練樣本的“結果”資訊；（12）樣例(x,y)：擁有標記的示例；（13）標記空間/輸出空間Y：所有標記的集合。

eg:收集了一批關於西瓜的資料：資料集D={（色澤=青綠；根蒂=硬挺；敲聲=清脆），（色澤=烏黑；根蒂=稍蜷；敲聲=沉悶）}；其中樣本x有兩條；屬性有3個：色澤、根蒂、敲聲；屬性空間X的維數d是3；除了示例資料外，還需要樣本空間Y=（好瓜，壞瓜），則對應的（（色澤=青綠；根蒂=硬挺；敲聲=清脆），好瓜）表示一個樣例。

（14）學習任務：根據訓練資料是否有標記可以分為：

（I）監督學習：訓練資料有標記資訊；

　　根據預測的標記是否離散可分為：(a).分類：預測的是離散值；類別數為2時：二分類任務；大於2時：多分類任務(b)迴歸：預測是連續值

（II）無監督學習：訓練資料無標記資訊。聚類：將訓練集中的示例分為若干組。

通過對訓練集進行學習，建立一個從輸入空間X到輸出空間Y的對映f：X-->Y

其中二分類任務，Y={-1，+1}或{0,1}；多分類任務：|Y|>2；迴歸任務：Y=R（R為實數集）

（15）測試：學得模型後，使用其進行預測的過程成為“測試”；（16）測試樣本：被預測的樣本；

（17）泛化：學得模型使用於新樣本的能力；（18）獨立同分布：假設樣本空間中全體樣本服從一個未知分佈D，獲得的每個樣本都是從獨立的從這個分佈上取樣獲得的，即獨立同分布。

【假設空間】

科學推理的兩種手段：

（1）歸納：從特殊到一般的“泛化”過程；eg:從樣例中學習（2）演繹：從一般到特殊的“特化”過程，eg:基於公理和推理規則推導定理。

∵從樣例中學習是歸納過程，∴也成為“歸納學習”

歸納學習：

（1）廣義：相當於從樣例中學習；

（2）狹義：要求從訓練資料中獲得概念，也稱為“概念學習”

假設空間：

所有假設組成的空間：eg:西瓜問題中只有三個屬性，每個屬性有三種取值，則假設空間規模大小應該為：4*4*4+1=65(4代表3種取值加上萬用字元，1代表根本極端情況概念不成立)

學習過程：

在假設空間中進行搜尋的過程，搜尋目標是找到與訓練集“匹配”的假設。

版本空間：

可能有多個假設與訓練集一致，即存在著一個與訓練集一致的“假設集合”。

【歸納偏好】

（1）問題：在一個版本空間中，一個模型在面對新樣本的時候會產生不同的輸出，即該新樣本可匹配版本空間中不同的假設。那麼該採用哪種模型或假設呢？

解決：根據其“歸納偏好”得到模型，任何一個機器學習演算法在學習過程中都會對某種型別假設有偏好，從而得到確定的學習結果。

（2）問題：學習演算法怎麼選擇合適的偏好呢？也就是說有沒有“一般性的原則”引導演算法確立“正確的”偏好呢？

解決：常用的是“奧卡姆剃刀原則”：若有多個假設與觀察一致，選擇最簡單的那個。

（3）問題：對於一個學習演算法，它在某些問題上比另一種學習演算法好，但必然存在另外一些問題，另一種學習演算法比該學習演算法更好。考慮二分類問題，若所有可能的真實目標函式均勻分佈，則通過推導學習演算法的誤差可以發現總誤差與學習演算法無關！

即NFL定理（沒有免費的午餐定理）：在所有問題出現的機會相同的前提下，無論學習演算法A多麼聰明，學習演算法B多麼笨拙，它們的期望性是相同的！

解決：實際情況下，我們只需考慮我們面對的問題，只需要選擇最適合面對問題的演算法即可。

【發展歷程】

五十年代：推理器；七十年代：知識期；八十年代：學習期

1.二十世紀五十年代初：已出現機器學習的相關研究：A.Samuel的跳棋程式；

2.五十年代中後期：基於神經網路的“連線主義”學習：感知機、Adaline；

3.六七十年代：基於邏輯表示的“符號主義”學習：結構學習系統、基於邏輯的歸納學習系統、概念學習系統；

　　　　　　　以決策理論為基礎的學習技術級強化學習技術

二十世紀五十年代到七十年代初：人工智慧處於“推理期”；

七十年代中期：人工智慧進入了“知識期”，大量專家系統問世；

八十年代：機器學習成為一個獨立的學科領域；

4.八十年代：從樣例中學習的一大主流：符號主義學習：決策樹、基於邏輯的學習（歸納邏輯程式設計ILP）；

5.九十年代中期之前：從樣例中學習的另一大主流技術是基於神經網路的連線主義學習，重新得到關注；

5.九十年代中期：統計學習（代表技術：支援向量機SVM及核方法）；

6.二十一世紀初：連線主義學捲土重來，掀起了深度學習的熱潮。

【閱讀材料】

1) 第一本機器學習專業期刊：Machine Learning

2) 人工智慧領域的權威期刊：Artificial Intelligence

3) 第一本機器學習專門性教材：Mitchell, 1997

4) 出色的入門讀物：Duda et al.,2001; Alpaydin, 2004; Flach, 2012;

5) 進階讀物：Hastie et al. , 2009;

6) 適合貝葉斯學習偏愛者：Bishop, 2006

7) 基於WEKA撰寫的入門讀物，有助於初學者通過WEKA實踐快速掌握常用的機器學習演算法：Witten et al.,2011

8) 國際機器學習會議：ICML

9) 國際神經資訊處理系統會議:NIPS

10) 國際學習理論會議：COLT

11) 國際學術期刊Journal of Machine Learning Research 和 Machine Learning

12) 人工智慧領域的重要會議：IJCAI, AAAI

13) 人工智慧領域重要期刊：Artifical Intelligence; Journal of Artifical Intelligence Research

14) 資料探勘領域重要會議：KDD, ICDM

15) 資料探勘領域重要期刊：ACM Transactions on Knowledge Discovery from Data; Data Mining and Knowledge Discovery

16) 計算機視覺和模式識別領域的重要會議：CVPR

17) 計算機視覺與模式識別領域的重要期刊：IEEE Transactions on Pattern Analysis and Machine Intelligence

18) 神經網路領域的重要期刊：Neural Computation, IEEE Transactions on Neural Networks and Learning System

19) 統計學領域的重要期刊：Annals of Statistics

20) 中國機器學習大會：CCML

21) 中國“機器學習及其應用”研討會：MLA

西瓜書閱讀記(一）

西瓜書閱讀記(一）

KBEngine warring項目源碼閱讀（一）項目簡介和註冊登錄

LevelDB的源碼閱讀（一）

spark源碼閱讀（一）啟動代碼閱讀

bleve源碼閱讀（一）目錄分析

Redis源碼閱讀（一）事件機制

P4 文獻閱讀（一）

Spark原始碼閱讀（一）

Koa原始碼閱讀（一）從搭建Web伺服器說起

Vue2配置axios跨域和從後端取資料賦值（踩坑記一）

Bleve程式碼閱讀（一）——新建索引

ConcurrentHashMap原始碼閱讀（一）

西瓜書閱讀筆記1

AFNetWorking3.2.0原始碼閱讀（一）-AFURLSessionManager.h

Testng 測試框架原始碼閱讀（一）

Horizon 原始碼閱讀（一）—— Horizon 整體介紹

JUNIT4.11原始碼閱讀（一）--org.junit.Assert類

linux kernel閱讀（一）程序的生命週期

【讀書雜談】學習閱讀（一）

bottle（python的一個小的伺服器框架）的原始碼閱讀（一）

西瓜書閱讀記(一）

相關推薦