1. 程式人生 > >麥子學院學習視頻之機器學習(1):1.1 機器學習介紹

麥子學院學習視頻之機器學習(1):1.1 機器學習介紹

社會學家 學生 策略 能夠 預測 輸入 min 外部程序 歸納

今天開始學習機器學習,在網上找了很多視頻還有書籍。由於本人不是計算機專業的學生,基礎知識還是比較薄弱,但我非常想學習機器學習以及深度學習。最後還是選擇了麥子學院的彭亮老師的《機器學習基礎介紹》(以後簡稱機器學習課程)。說的挺好的,主要是通俗易懂。還選擇了美國作者Miroslav Kubat的著作《機器學習導論》(以後簡稱機器學習書籍),再結合網絡資源先學習一些基礎課程,再開始我的深度學習之路吧。

1.1 機器學習介紹

本文主要是結合機器學習課程,以及網絡資源了解機器學習。總結的不是太好,希望大家多多指教。

1,機器學習 (Machine Learning, ML)

1.1 概念:多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。

1.2 學科定位:人工智能(Artificial Intelligence, AI)的核心,是使計算機具有智能的根本途徑,其應用遍及人工智能的各個領域,它主要使用歸納、綜合而不是演繹。

1.3 定義:探究和開發一系列算法來如何使計算機不需要通過外部明顯的指示,而可以自己通過數據來學習,建模,並且利用建好的模型和新的輸入來進行預測的學科。

學習是人類具有的一種重要智能行為,但究竟什麽是學習,長期以來卻眾說紛紜。社會學家、邏輯學家和心理學家都各有其不同的看法。

(1)Arthur Samuel (1959): 一門不需要通過外部程序指示而讓計算機有能力自我學習的學科

(2)Langley(1996) : “機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特別是如何在經驗學習中改善具體算法的性能”

(3)Tom Michell (1997): “機器學習是對能通過經驗自動改進的計算機算法的研究”

1.4學習:針對經驗E (experience) 和一系列的任務 T (tasks) 和一定表現的衡量 P,如果隨之經驗E的積累,針對定義好的任務T可以提高表現P,就說計算機具有學習能力。

2. 機器學習的應用:

機器學習已經有了十分廣泛的應用,例如:數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略遊戲和機器人運用。

3. 發展史

機器學習是人工智能研究較為年輕的分支,它的發展過程大體上可分為4個時期。

第一階段是在20世紀50年代中葉到60年代中葉,屬於熱烈時期。

第二階段是在20世紀60年代中葉至70年代中葉,被稱為機器學習的冷靜時期。

第三階段是從20世紀70年代中葉至80年代中葉,稱為復興時期。

機器學習的最新階段始於1986年。

4. 分類

基於學習策略的分類 

學習策略是指學習過程中系統所采用的推理策略。一個學習系統總是由學習和環境兩部分組成。由環境(如書本或教師)提供信息,學習部分則實現信息轉換,用能夠理解的形式記憶下來,並從中獲取有用的信息。在學習過程中,學生(學習部分)使用的推理越少,他對教師(環境)的依賴就越大,教師的負擔也就越重。學習策略的分類標準就是根據學生實現信息轉換所需的推理多少和難易程度來分類的,依從簡單到復雜,從少到多的次序分為以下六種基本類型:

1)機械學習 (Rote learning)

學習者無需任何推理或其它的知識轉換,直接吸取環境所提供的信息。如塞繆爾的跳棋程序,紐厄爾和西蒙的LT系統。這類學習系統主要考慮的是如何索引存貯的知識並加以利用。系統的學習方法是直接通過事先編好、構造好的程序來學習,學習者不作任何工作,或者是通過直接接收既定的事實和數據進行學習,對輸入信息不作任何的推理。

2)示教學習 (Learning from instruction或Learning by being told)

學生從環境(教師或其它信息源如教科書等)獲取信息,把知識轉換成內部可使用的表示形式,並將新的知識和原有知識有機地結合為一體。所以要求學生有一定程度的推理能力,但環境仍要做大量的工作。教師以某種形式提出和組織知識,以使學生擁有的知識可以不斷地增加。這種學習方法和人類社會的學校教學方式相似,學習的任務就是建立一個系統,使它能接受教導和建議,並有效地存貯和應用學到的知識。不少專家系統在建立知識庫時使用這種方法去實現知識獲取。示教學習的一個典型應用例是FOO程序。

3)演繹學習 (Learning by deduction)

學生所用的推理形式為演繹推理。推理從公理出發,經過邏輯變換推導出結論。這種推理是"保真"變換和特化(specialization)的過程,使學生在推理過程中可以獲取有用的知識。這種學習方法包含宏操作(macro-operation)學習、知識編輯和組塊(Chunking)技術。演繹推理的逆過程是歸納推理。

4)類比學習 (Learning by analogy)

利用二個不同領域(源域、目標域)中的知識相似性,可以通過類比,從源域的知識(包括相似的特征和其它性質)推導出目標域的相應知識,從而實現學習。類比學習系統可以使一個已有的計算機應用系統轉變為適應於新的領域,來完成原先沒有設計的相類似的功能。

類比學習需要比上述三種學習方式更多的推理。它一般要求先從知識源(源域)中檢索出可用的知識,再將其轉換成新的形式,用到新的狀況(目標域)中去。類比學習在人類科學技術發展史上起著重要作用,許多科學發現就是通過類比得到的。例如著名的盧瑟福類比就是通過將原子結構(目標域)同太陽系(源域)作類比,揭示了原子結構的奧秘。

5)基於解釋的學習 (Explanation-based learning, EBL)

學生根據教師提供的目標概念、該概念的一個例子、領域理論及可操作準則,首先構造一個解釋來說明為什該例子滿足目標概念,然後將解釋推廣為目標概念的一個滿足可操作準則的充分條件。EBL已被廣泛應用於知識庫求精和改善系統的性能。

著名的EBL系統有迪喬恩(G.DeJong)的GENESIS,米切爾(T.Mitchell)的LEXII和LEAP, 以及明頓(S.Minton)等的PRODIGY。

6)歸納學習 (Learning from induction)

歸納學習是由教師或環境提供某概念的一些實例或反例,讓學生通過歸納推理得出該概念的一般描述。這種學習的推理工作量遠多於示教學習和演繹學習,因為環境並不提供一般性概念描述(如公理)。從某種程度上說,歸納學習的推理量也比類比學習大,因為沒有一個類似的概念可以作為"源概念"加以取用。歸納學習是最基本的,發展也較為成熟的學習方法,在人工智能領域中已經得到廣泛的研究和應用。

5. 學習形式分類

1)監督學習(supervised learning)

監督學習,即在機械學習過程中提供對錯指示。一般實在是數據組中包含最終結果(0,1)。通過算法讓機器自我減少誤差。這一類學習主要應用於分類和預測 (regression & classify)。監督學習從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求是包括輸入和輸出,也可以說是特征和目標。訓練集中的目標是由人標註的。常見的監督學習算法包括回歸分析和統計分類。

2)非監督學習(unsupervised learning)

非監督學習又稱歸納性學習(clustering)利用K方式(Kmeans),建立中心(centriole),通過循環和遞減運算(iteration&descent)來減小誤差,達到分類的目的。

6. 研究領域

機器學習領域的研究工作主要圍繞以下三個方面進行:

(1)面向任務的研究

研究和分析改進一組預定任務的執行性能的學習系統。

(2)認知模型

研究人類學習過程並進行計算機模擬。

(3)理論分析

從理論上探索各種可能的學習方法和獨立於應用領域的算法

機器學習是繼專家系統之後人工智能應用的又一重要研究領域,也是人工智能和神經計算的核心研究課題之一。現有的計算機系統和人工智能系統沒有什麽學習能力,至多也只有非常有限的學習能力,因而不能滿足科技和生產提出的新要求。對機器學習的討論和機器學習研究的進展,必將促使人工智能和整個科學技術的進一步發展 。

7. 置業市場需求:

LinkedIn所有職業技能需求量第一:機器學習,數據挖掘和統計分析人才

參考資料:

[1] 麥子學院“機器學習基礎介紹”視頻http://www.maiziedu.com/course/373/

[2] 百度百科“機器學習”https://baike.baidu.com/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/217599?fr=aladdin

本博文是博主個人學習時的一些記錄,不保證是為原創,文章加入了轉載的源地址還有個別文章是匯總網上多份資料所成,在這之中也必有疏漏未加標註者,如有侵權請與博主聯系。

麥子學院學習視頻之機器學習(1):1.1 機器學習介紹