1. 程式人生 > 其它 >機器學習方法

機器學習方法

機器學習是人工智慧的一個分支,包括從資料中自動建立模型的演算法。從高層次上講,機器學習有四種:監督學習、無監督學習、強化學習和主動機器學習。由於強化學習和主動機器學習相對較新,因此此類列表有時會省略它們。由於強化學習和主動機器學習相對較新,因此此類列表有時會省略它們。你也可以把半監督學習新增到列表中,也不算錯。

監督學習

​ 監督學習是從帶有正確答案(目標值)的經過標記的訓練資料開始的。在學習過程之後,將得到一個經過調優的權重集的模型,這可以用於預測尚未標記的類似資料的答案。


​ 你想要的是訓練一個沒有過度擬合或者欠擬合的高精度模型。高精度意味著你已經優化了損失函式。在分類問題的情景中,準確性是模型產生正確輸出的示例的比例。

​ 過度擬合意味著模型與它所看到的資料關聯過於緊密,以致於不能推廣應用到它所沒有看到的資料。

​ 欠擬合意味著模型不夠複雜,無法捕獲資料中的潛在趨勢。選擇損失函式來反映模型的“不足之處”將損失最小化以找到最佳模型。

​ 對於數值(迴歸)問題,損失函式通常是均方誤差(MSE),也可表示為均方根誤差(RMSE)或者均方根偏差(RMSD)。這對應於資料點和模型曲線之間的歐幾里得距離。對於分類(非數值)問題,損失函式可以基於一種度量方法,包括ROC曲線下面積(AUC)、平均精度、精度恢復和對數損失等。

​ 為了避免過度擬合,通常把標記過的資料分為兩組,多數用於訓練,少數用於驗證和測試。驗證集損失一般高於訓練集損失,但這是你所關心的,因為不應該表現出對模型的偏見。

​ 對於小資料集,使用固定的維持集進行測試驗證可能會導致統計值較低。解決這一問題的一種方法是使用交叉驗證方法,其中不同的摺疊(資料子集)輪流作為不同訓練階段的維持集。

​ 我提到了AUC是ROC曲線下的區域。ROC是接收機工作特性曲線;該術語來自無線電訊號分析,但從本質上講,ROC曲線通過繪製真正值比率與假正值比率的關係來顯示分類器的靈敏度。ROC曲線下的區域越大越好,這樣,當你使用它作為損失函式的基礎時,實際上希望最大化AUC。

無監督學習

​ 無監督學習是一種正規化,旨在通過獎勵代理(即計算機程式),在不考慮具體任務的情況下學習它們觀察到的資料,從而建立自主智慧。換句話說,代理是出於學習的目的而去學習。


半監督學習

​ 顧名思義,半監督學習介於受監督學習和無監督學習之間。受監督學習採用帶有正確答案(目標值)的標記過的訓練資料。在學習過程之後,將得到一個經過調優的權重集的模型,這可以用於預測尚未標記的類似資料的答案。


​ 半監督學習同時使用標記和未標記的資料來擬合模型。在某些情況下,比如新增未標記的資料的確提高了模型的準確性。在其他情況下,未標記的資料可能會使模型更差。正如我將在下面所討論的,在不同的資料特性條件下,不同的演算法會有不同的缺點。

​ 一般來說,標記資料需要花費金錢和時間。這並不總是問題,因為有些資料集已經有了標記。但是如果您有很多資料,其中只有一些是標記過的,那麼半監督學習這種技術很值得一試

參考文獻

[1]MartinHeller,Charles.機器學習之半監督學習釋義[N].計算機世界,2019-11-25(006).

[2]MartinHeller,Charles.機器學習之無監督學習釋義[N].計算機世界,2019-11-11(007).

[3]MartinHeller,Charles.機器學習之監督學習釋義[N].計算機世界,2019-09-16(007).