1. 程式人生 > >關於機器學習的一些概念

關於機器學習的一些概念

在連線主義學習中,把學習演算法分為三種類型,即非監督學習(unsupervised learning)、監督學習(supervised leaning)和強化學習。

強化學習:

所謂強化學習就是智慧系統從環境到行為對映的學習,以使獎勵訊號(強化訊號)函式值最大,強化學習不同於連線主義學習中的監督學習,主要表現在教師訊號上,強化學習中由環境提供的強化訊號是對產生動作的好壞作一種評價(通常為標量訊號),而不是告訴強化學習系統RLS(reinforcement learning system)如何去產生正確的動作。由於外部環境提供的資訊很少,RLS必須靠自身的經歷進行學習。通過這種方式,RLS在行動-評價的環境中獲得知識,改進行動方案以適應環境。

在2d中,類似的程式碼在動作鏈那塊,首先工作產生器會產生很多動作(屬於我們自己創造的動作,類似監督學習),然後每一個動作執行之後,會產生一種狀態,這種動作--狀態對就類似強化學習中行為和狀態。然後通過評估器(當然也是我們自己來寫)給每一種狀態進行評分,評分高的動作就會被執行。 雖然這一塊很像很像強化學習,但是我覺得還是有區別的。首先強化學習是一個增量的過程,他會根據以前的“經驗”來判斷之後的行為。而2d中的評估是由我們人工寫好的,每一次的動作都是根據那個評估器來評估,不會考慮到以前的“經驗”。

監督學習:

監督學習是從標記的訓練資料來推斷一個功能的機器學習任務。訓練資料包括一套訓練示例。在監督學習中,每個例項都是由一個輸入物件(通常為向量)和一個期望的輸出值(也稱為監督訊號)組成。監督學習演算法是分析該訓練資料,併產生一個推斷的功能,其可以用於映射出新的例項。一個最佳的方案將允許該演算法來正確地決定那些看不見的例項的類標籤。這就要求學習演算法是在一種“合理”的方式從一種從訓練資料到看不見的情況下形成。

我所理解的監督學習就是:提供標準答案的方式。主要應用是分類。

無監督學習:

這個學習比較屌,它和強化學習類似。不過我還是有點分不清倆者的區別

http://blog.csdn.net/lanyuanershe/article/details/9615371 這篇文章寫得很好。