1. 程式人生 > >機器學習基石 Lecture16: Three Learning Foundations

機器學習基石 Lecture16: Three Learning Foundations

機器學習基石 Lecture16: Three Learning Foundations

Occam’s Razor

奧卡姆剃刀原則:如無必要勿增實體。
在這裡插入圖片描述
對這個原則的理解相當於是說,在機器學習裡最簡單的能夠解釋資料的模型就是最合理的模型。但是有兩個問題,怎麼知道一個模型是比較簡單的?以及,怎麼確定更簡單的模型就是更好的?
在這裡插入圖片描述
一個簡單的假設函式h看起來比較簡單,一般是意味著有比較少的引數。而一個模型比較簡單意味著它包含的假設函式的數量比較小。這兩個事情之間有著一定的聯絡,因為模型包含更少的假設意味著假設函式可以用更少的bit來表示,因此更小的模型複雜度會帶來更簡單的假設函式。
在這裡插入圖片描述


而證明更簡單的模型會更好是一個直覺上的說明。當我們能夠使用更簡單的模型就能夠解釋好一組資料時,說明這個資料可能確實是這麼發生的。因為對於複雜的模型而言,對於各種資料都可能能夠得到一個解釋,而不是針對當前的資料。也就是說簡單模型的解釋更具有顯著性。
在這裡插入圖片描述

Sampling Bias

下面說明的是取樣偏差的問題。1948年美國總統大選的時候,杜魯門和杜威之間的選舉,在投票結束之後媒體通過電話抽樣調查投票結果。抽樣顯示杜威會獲勝,但實際上最後獲勝的是杜魯門。
在這裡插入圖片描述
事後調查原因,既不是因為編輯的失誤,也不是抽樣的結果沒有代表性。而是因為當時的電話很貴,抽樣人群是一個特定的群體而不能代表所有的人。從理論上講,如果資料通過有偏的方式取樣得到的,那麼學習的結果也是有偏的。這是因為VC bound的不等式是建立在訓練資料與測試資料是獨立同分布的假設上的,如果這個假設不滿足VC bound也就不成立。
在這裡插入圖片描述


林老師自己在參與2010年Netflix比賽的時候也遇到了這個問題,在驗證集上提升的效果超過了目標的10%,但是實際上在測試集上結果折半了。這是因為比賽中的資料是有一定先後順序的,前面的資料被用來做訓練,而靠後面的資料被拿來做測試。
在這裡插入圖片描述
如何解決這個有偏取樣的問題呢?一個實際的方向就是讓訓練資料或者是驗證的時候儘可能的靠近最終測試的場景。
在這裡插入圖片描述
以及給使用者發放信用卡時,銀行有的資料都是以前發放了信用卡的使用者的情況,而沒有不被髮放信用卡的使用者的情況,本身也是有偏的。

Data Snooping

之前也講過關於偷看資料的問題。當我們觀察資料時,腦海裡的思考會幫助我們進行模型的選擇,這會導致附加了一些複雜度到訓練過程中去。因此最好在訓練時在看了資料之後再進行特徵工作或者思考模型。
在這裡插入圖片描述


但是這樣做是非常困難的,一不注意就導致了偷看的發生。比如使用了8年的股票資料,前6年的被用來做訓練而後兩年的作為測試。如果是進行資料歸一化的動作,只使用前6年的資料進行歸一化和使用了整個8年的資料進行歸一化就會導致結果完全不同。
在這裡插入圖片描述
而對於資料的重複使用也會導致這個問題。比如對一個公開資料集的連續使用進而選擇模型,無形中會存在一個聯合的過程,也就導致了最終的模型複雜度會很大。也就是說一直用一個數據會導致效果可能會很好,但不一定能代表真實情況。
在這裡插入圖片描述
為了解決這個問題,需要做到以下的幾點:
在這裡插入圖片描述
但完全避免是非常難做到的。因此需要自身把握一個平衡。

Power of Three

最後做一些總結。本門課講了好多跟3有關的東西,第一個就是三個相關的學科:
在這裡插入圖片描述
三個理論上限:
在這裡插入圖片描述
三種線性模型:
在這裡插入圖片描述
三種訓練模型的關鍵技術:
在這裡插入圖片描述
三個學習的準則:
在這裡插入圖片描述
下面的技法課程中也有三種更多可能等著我們:
在這裡插入圖片描述
基石完結,技法再會。
在這裡插入圖片描述