機器學習——對三種模式的看法
“從樣例學習”
(1)監督學習
1.分類 2.迴歸
(2)非監督學習
1.聚類
“從樣例學習”:(歸納學習)
歸納(induction)從特殊到一般,和演繹(deduction)從一般到特殊,是科學的兩大基本推理手段。歸納是從特殊到一般的“泛化”(generalization)過程,演繹是從一般到特殊的“特化”(specialization)過程。
“從樣例中學習”是一個歸納的過程,也稱為“歸納學習”。其核心是,從訓練樣例中歸納出學習結果。
基於“神經網路”的“連線主義”:
產生的是黑箱模型,在工程上有很大用處。現在被稱為深度學習,本質是“有很多層的神經網路”。
但是缺點也顯而易見,深度學習缺少嚴格的理論基礎,但由於現在大資料的興起,資料量的增大和計算量的加強,深度學習在工程上有很多便利。但是由於引數過多,樣本資料不夠的話,容易造成“過擬合”。
統計學習:
SVM & kernel methods
相比於神經網路的侷限性,統計學習有統計學習理論的支撐。
“從樣例學習”——即傳統的機器學習,其核心我認為是在精妙的演算法上,如線性迴歸、邏輯迴歸等有數學推導的支撐。這樣的機器學習型別對資料量沒有太高要求,但是在解決問題時,對演算法的選擇和設計有較高要求,對數學功底特別嚴格。
“神經網路——連線主義學習”,現在發展成深度學習,由於大資料時代的到來和計算機硬體的革命,資料量和計算量大大提升,對解決工程類問題有很大幫助,但是缺點顯而易見,神經網路模型本質是一個“黑箱模型”,對學術類問題不能有很好的理論解釋。
代表為——TensorFlow
機器學習的本質,我認為是演算法、數學、程式設計。
三者缺一不可,學術方面,對數學和演算法有較高要求,特別是在統計學方面,“從樣例學習”需要大量統計學知識,在這方面“從樣例學習”中,演算法的推導可以幫助我們提升自身素質。
而“連線主義學習”,在工程領域有很好的應用(Tensorflow),對程式設計有較高要求,在短期內容易出成果,但是成果模型有不確定性和無法描述性,他的模型是“黑箱模型”,而且不可控性太大,主流的框架有Tensorflow、Caffe等。風險性在於,框架雖然類似程式語言,但是其開發者的改動和停止更新會對工程造成打擊,不像演算法那般可靠。
由此可見:
“從樣裡學習”更偏向於學術論文的撰寫,“連線主義學習”更偏向工程問題的解決。
即傳統機器學習的基石是演算法,深度學習的基石在於神經網路,他依靠的是大資料量和計算量。