1. 過擬合(overfitting)簡介

0x1：假設空間（hypothesis space）

給定學習演算法 A，它所考慮的所有可能概念的集合稱為假設空間，用符號 H 表示。對於假設空間中的任一概念，我們用符號 h 表示，由於並不能確定它是否真是目標概念，因此稱為“假設”（hypothesis）

1. 模型空間/模型搜尋空間

模型空間針對的是模型結構上的定義，例如使用線性迴歸模型、高斯分佈模型、DNN複合線性模型、包含非線性啟用函式的非線性DNN模型、CNN模型等。

即使是選定了線性多項式函式作為目標函式，函式的專案有多少？每項的冪次是多少？這些都屬於模型搜尋的範疇。

2. 模型引數搜尋空間

模型引數搜尋，也就是所謂的模型訓練過程，本質上是在做模型超引數的搜尋過程，我們本章接下來統一都叫引數搜尋過程，筆者知道它們二者是相同的即可。

引數搜尋解決的最主要的問題就是“權重分配”，機器學習中的目標函式都是多元的，即由大量的“原子判別函式”組成，所有的原子判別函式共同作用於待預測資料，給出一個最終的綜合判斷結果。

引數搜尋會根據訓練資料中包含的概率分佈，對所有的原子判別函式的權重進行最優化調整，使其最大程度地擬合訓練資料。

0x2：什麼是過擬合？

首先，先丟擲筆者的幾個觀點：

觀點1：過擬合不是一個理論分析的結果，目前還不存在一個明確的理論，可以量化地分析過擬合是否發生、以及過擬合的程度(數值化)有多少。過擬合是一種可以被觀測到的現象，在具體的場景中，當觀測到某些現象的時候，我們說，此時發生了過擬合

。

觀點2：不是說使用了複雜函式就一定代表了過擬合，複雜函式不等於過擬合。

1. 判斷髮生過擬合的現象 - 訓練集上得到的模型無法適應測試集

我們通過一個例子來討論過擬合現象

1）資料集

假設我們要對一個簡單的資料集建立模型：

我們的目標是構建一個模型，得到基於

可以看到，函式精確擬合了資料

3）

4）是否發生了過擬合呢？哪個模型更容易產生過擬合呢？

嚴格來說，是否發生了過擬合，哪個模型更可能產生過擬合，這兩個問題非常微妙。簡單來說，答案是：實踐是檢驗真理的唯一標準。

我們說過，過擬合是一種在專案實踐中遇到的一個常見的現象，並不是一種高深的理論。

筆者希望向讀者朋友傳達的一個觀點是：

上面兩種函式（複雜的和簡單的），都有可能產生過擬合，也都可能不產生過擬合，也可能複雜函式產生過擬合而簡單函式泛化能力很好，所謂的“簡單函式的泛化能力更好”不是一個有著堅實理論和數學基礎的理論定理，它只是在長久的資料科學專案中，資料科學家們發現的一個普遍現象。

可以理解為屬於經驗科學的一個範疇，簡單的模型不容易產生過擬合，簡單的模型泛化能力更好，甚至所謂的奧卡姆剃刀原理。這個經驗在很多時候是有效的，我們也沒有什麼理由不去應用這個經驗。畢竟資料科學還是一個偏向實踐和以結果說話的學科，得到好的結果是最重要的。

只是說，筆者希望讀者朋友們不要太過於簡單粗暴地認死理，認為說你設計的模型一定就需要遵循簡單原理，凡是複雜的模型就是不好的。

判斷髮生過擬合的方法很簡單，就是測試集。當我們用一份新的測試集去測試模型的時候，如果precision和recall發生了很嚴重的下降，則說明發生了過擬合，不管是什麼內在原因(我們後面會分析可能的原因)，過擬合肯定是發生了，模型在訓練集和測試集上表現不一致就是過擬合的最主要的現象。

2. 過擬合產生的本質原因

過擬合發生的本質原因，是由於監督學習問題的不適定。過擬合現象的發生原因，可以分解成以下三點：

1. 訓練集和測試機特徵分佈不一致：
假如給一群天鵝讓機器來學習天鵝的特徵，經過訓練後，知道了天鵝是有翅膀的，天鵝的嘴巴是長長的彎曲的，天鵝的脖子是長長的有點曲度，天鵝的整個體型像一個“2”且略大於鴨子.這時候你的機器已經基本能區別天鵝和其他動物了。但是很不巧訓練集中的天鵝全是白色的，於是機器經過學習後，會認為天鵝的羽毛都是白的，以後看到羽毛是黑的天鵝就會認為那不是天鵝。
可以看到，訓練集中的規律，“天鵝的體型是全域性特徵”，但是“天鵝的羽毛是白的”這實際上並不是所有天鵝都有的特徵，只是區域性樣本的特徵。
機器在學習全域性特徵的同時，又大量學習了局部特徵，這才導致了泛化能力變產，最終導致不能識別黑天鵝的情況.

2. 在有限的樣本中搜索過大的模型空間
在高中數學我們知道，從 n 個（線性無關）方程一定可以解 n 個變數，但是解 n+1 個變數就會解不出。因為有2個變數可能不在一個維度上。
在監督學習中，往往資料（對應了方程）遠遠少於模型空間（對應了變數）。
在有監督學習中，如果訓練樣本數小於模型搜尋空間，則有限的訓練資料不能完全反映出一個模型的好壞，然而我們卻不得不在這有限的資料上挑選模型，因此我們完全有可能挑選到在訓練資料上表現很好而在測試資料上表現很差的模型，因為我們完全無法知道模型在測試資料上的表現。
顯然，如果模型空間很大，也就是有很多很多模型可以給我們挑選，那麼挑到對的模型的機會就會很小。

3. 訓練過程中函式過多吸收了噪音資料的影響
fit model的時候加的parameter太多了，導致model太精準地抓住了這組資料的所有variance，不管是主要的資料趨勢帶來的variance還是噪音帶來的variance都一併被擬合在了模型裡。
用這個模型去預測原資料肯定是準確性更高，但放在一組具有相同趨勢但細節不同的資料裡時，預測效果就會下降。

0x3：複雜函式一定不好嗎？複雜函式一定會導致過擬合嗎？

我們從介紹兩個正確結果是複雜模型的例子開始這個小節的討論。

1. 複雜函式得到正確結果的例子

在 1940 年代物理學家馬塞爾施恩（Marcel Schein）宣佈發現了一個新的自然粒子。

他工作所在的通用電氣公司欣喜若狂並廣泛地宣傳了這一發現。但是物理學家漢斯貝特（Hans Bethe）卻懷疑這一發現。貝特拜訪了施恩，並且查看了新粒子的軌跡圖表。施恩向貝特一張一張地展示，但是貝特在每一張圖表上都發現了一些問題，這些問題暗示著資料應該被丟棄。

最後，施恩向貝特展示了一張看起來不錯的圖表。貝特說它可能只是一個統計學上的巧合。施恩說「是的，但是這種統計學巧合的機率，即便是按照你自己的公式，也只有五分之一。」貝特說「但是我們已經看過了五個圖表。」最後，施恩說道「但是在我的圖表上，每一個較好的圖表，你都用不同的理論來解釋，然而我有一個假設可以解釋所有的圖表，就是它們是新粒子。」貝特迴應道「你我的學說的唯一區別在於你的是錯誤的而我的都是正確的。你簡單的解釋是錯的，而我複雜的解釋是正確的。」隨後的研究證實了大自然是贊同貝特的學說的，之後也沒有什麼施恩的粒子了。

這個例子中，施恩聲稱自己發現的新粒子，就代表了一種簡單模型。

另一個例子是，1859 年天文學家勒維耶（Urbain Le Verrier）發現水星軌道沒有按照牛頓的引力理論，形成應有的形狀。

它跟牛頓的理論有一個很小很小的偏差，一些當時被接受的解釋是，牛頓的理論或多或少是正確的，但是需要一些小小的調整。1916 年，愛因斯坦表明這一偏差可以很好地通過他的廣義相對論來解釋，這一理論從根本上不同於牛頓引力理論，並且基於更復雜的數學。儘管有額外的複雜性，但我們今天已經接受了愛因斯坦的解釋，而牛頓的引力理論，即便是調整過的形式，也是錯誤的。這某種程度上是因為我們現在知道了愛因斯坦的理論解釋了許多牛頓的理論難以解釋的現象。此外，更令人印象深刻的是，愛因斯坦的理論準確的預測了一些牛頓的理論完全沒有預測的現象。但這些令人印象深刻的優點在早期並不是顯而易見的。如果一個人僅僅是以樸素這一理由來判斷，那麼更好的理論就會是某種調整後的牛頓理論。

在這個例子中，牛頓定理，就代表了一種簡單模型。

2. 故事背後的意義

這些故事有三個意義：

第一，判斷兩個解釋哪個才是真正的「簡單」是一個非常微妙的事情；
第二，即便我們能做出這樣的判斷，簡單是一個必須非常謹慎使用的指標；
第三，真正測試一個模型的不是簡單與否，更重要在於它在預測新的情況時表現如何；

0x4：解決過擬合的一個有效的方法 - 正則化

謹慎來說，經驗表明正則化的神經網路（在傳統機器學習演算法中也一樣）通常要比未正則化的網路泛化能力更好。

事實上，研究人員仍然在研究正則化的不同方法，對比哪種效果更好，並且嘗試去解釋為什麼不同的方法有更好或更差的效果。所以你可以看到正則化是作為一種「雜牌軍」存在的。雖然它經常有幫助，但我們並沒有一套令人滿意的系統理解為什麼它有幫助，我們有的僅僅是沒有科學依據的經驗法則。

筆者翻閱了大量的書籍和文獻，在《機器學習導論》、《深入理解機器學習》這兩本書的前部分章節中，介紹一些一些理論分析框架，可以從側面對過擬合和正則化帶來泛化能力上的優化背後的原理做了一些解釋。篇幅非常長也很理論化，建議讀者自行購書閱讀。

筆者這裡做一個概括性的總結：

1. 經典的 bias-variance decomposition；
2. PAC-learning 泛化界解釋；
3. Bayes先驗解釋，這種解釋把正則化變成先驗

1. 正則化作用一 - 減少權值引數個數

減小權值引數個數，主要是為了解決假設空間太大的問題。

先看一下二次多項式和十次多項式的區別——

二次多項式： $w_0+w_1x+w_2x^2$

十次多項式： $w_0+w_1x+w_2x^2+...+w_{10}x^{10}$

下圖可以看出來十次項的形式很複雜，雖然可以擬合訓練集全部資料，但是“可能”嚴重過擬合。我們嘗試把十次項出現的機會打壓一下，即減少權值引數個數。

其實只要讓後面的w係數全等於零，那麼二次多項式和十次多項式本質上是一樣的，這樣子就客觀上把假設空間縮小了，這裡就是正則化的過程。

2. 正則化作用二 - 降低權值引數數值

擬合過程中通常都傾向於讓權值儘可能小，最後構造一個所有引數都比較小的模型。

因為一般認為引數值小的模型比較簡單，能適應不同的資料集，也在一定程度上避免了過擬合現象。

可以設想一下對於一個線性迴歸方程，若引數很大，那麼只要資料偏移一點點，就會對結果造成很大的影響；但如果引數足夠小，資料偏移得多一點也不會對結果造成什麼影響，一種流行的說法是『抗擾動能力強』。

Relevant Link:

https://www.jianshu.com/p/1aafbdf9faa6
https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/chap3/c3s5ss2.html
https://www.zhihu.com/question/32246256 
https://www.zhihu.com/question/20700829

2. 從模型搜尋空間限制角度看線性模型中的正則化（Regularization）

0x1：正則化簡介

在機器學習中，不管是常規的線性模式，還是像深度學習這樣的複合線性模型，幾乎都可以看到損失函式後面會新增一個額外項。

常用的額外項一般有兩種，一般英文稱作ℓ1-norm和ℓ2-norm，中文稱作L1正則化和L2正則化，或者L1範數和L2範數。

L1正則化和L2正則化可以看做是損失函式的懲罰項。

所謂『懲罰』是指對損失函式中的某些引數做一些限制。具體是什麼限制，我們接下來會詳細討論。

對於線性迴歸模型，使用L1正則化的模型叫做Lasso迴歸；使用L2正則化的模型叫做Ridge迴歸（嶺迴歸）。

0x2：Lasso迴歸 - 包含L1正則化的線性迴歸

線性迴歸模型中，Lasso迴歸的損失函式如下：

，後面一項 $α | | w | |_{1}$

$α | | w | |_{1}$

L1正則化可以產生稀疏權值矩陣，即產生一個稀疏模型，可以用於特徵選擇。

稀疏矩陣指的是很多元素為0，只有少數元素是非零值的矩陣，即得到的線性迴歸模型的大部分系數都是0。

我們知道，通常機器學習中特徵數量很多（人工提取地或者因為自動編碼產生的），例如文字處理時，如果將一個片語（term）作為一個特徵，那麼特徵數量會達到上萬個（bigram）。

在預測或分類時，但是如果代入所有這些特徵，可能會最終得到一個非常複雜的模型，而絕大部分特徵權重是沒有貢獻的，即該模型更容易產生過擬合（回想前面過擬合原因的分析）。

加入L1正則化後，得到的模型是一個稀疏模型，表示只有少數特徵對這個模型有貢獻，因此提高了模型的泛化能力。

2. 以二維損失函式視覺化解釋 L1正則化是如何影響模型權重分配的

在專案中我們的特徵肯定都是超高維的，不利於解釋原理本質，我們以視覺化的二維函式作為討論物件，解釋 L1正則化的原理。

假設有如下帶L1正則化的損失函式：

其中 J0 是原始的損失函式，加號後面的一項是L1正則化項，α 是正則化係數。

注意到 L1 正則化是權值的絕對值之和，J 是帶有絕對值符號的函式，因此 J 是不完全可微的。機器學習的任務就是要通過最優化方法（例如梯度下降）求出損失函式的最小值。

當我們在原始損失函式 J0 後新增 L1 正則化項時，相當於對 J0 做了一個約束。

令，則 J = J0 + L，此時我們的任務變成在 L 約束下求出 J0 取最小值的解。

在二維的情況，即只有兩個權值 w1 和 w2，此時 L = a * ( ||w1| + |w2| )。L 函式在二維座標系上是一個菱形，讀者朋友可以自己推導下。

對於梯度下降法，求解 J0 的過程可以畫出等值線，同時 L1 正則化的函式 L 也可以在 w1，w2 的二維平面上畫出來。如下圖：

圖中等值線是 J0 的等值線，黑色方形是某個指定懲罰係數α（例如1）時，L 函式的圖形。

在圖中，當 J0 等值線與 L 圖形首次相交的地方就是最優解。

上圖中 J0 與 L在 L 的一個頂點處相交，這個頂點就是最優解。注意到這個頂點中，w1 = 0，w2 = w。

在懲罰係數 α 不同時，這個菱形會不斷擴大和縮小，可以直觀想象，因為 L 函式有很多『突出的角』（二維情況下四個，多維情況下更多），J0 與這些角接觸的機率會遠大於與 L 其它部位接觸的機率（隨著α縮小，L 的尖角總是最先碰到 J0 ），而在這些角上，會有很多權值等於0，這就是為什麼 L1正則化可以產生稀疏模型，進而可以用於特徵選擇。

另一方面，而正則化前面的係數 α，可以控制 L 圖形的大小。

α 越小，L 的圖形越大（上圖中的黑色方框）；
α 越大，L 的圖形就越小，可以小到黑色方框只超出原點範圍一點點；

通過擴大 α 的大小，使得 w 可以取到很小的值。

綜上可以看到，L1正則化能夠做到兩件事：

1. 使得權重向量 w 儘量稀疏，即被選中的特徵儘量少。且 ；
2. 即使被選中，也有能力盡量使得 w 儘量小；

3. L1正則化的懲罰因子引數怎麼選擇

α越大，越容易使得權值向量 w 取得稀疏情況，同時權值向量 w 值也越小。

$α | | w | |_{1}$

L2正則化可以防止模型過擬合（overfitting）。但是這不是L2正則化的專利，L1正則化也能一定程度上防止模型過擬合。

2. 以二維損失函式視覺化解釋 L2正則化是如何使模型權重分配趨向於小值

假設有如下帶L2正則化的損失函式：

分析的過程和L1正則化是一樣的，我們省略，同樣可以畫出他們在二維平面上的圖形，如下：

二維平面下L2正則化的函式圖形是個圓，與方形相比，被磨去了稜角。因此 $J_{0}$

$J_{0}$

與未新增L2正則化的迭代公式相比，每一次迭代，θj 都要先乘以一個小於 1 的因子，從而使得 θj 不斷減小，因此總得來看，θ是不斷減小的；
而且 λ 越大，每次減少的程度也越大；

$J_{0}$

3. L2正則化的懲罰因子引數怎麼選擇

λ越大，L2懲罰力度就越大，引數被小值化壓制的程度也越大。

0x4：L1、L2正則化各自適合的場景

1. ridge regression（L2） 並不具有產生稀疏解的能力，也就是說引數並不會真出現很多零。假設我們的預測結果與兩個特徵相關，L2正則傾向於綜合兩者的影響，給影響大的特徵賦予高的權重；
2. 而 L1 正則傾向於選擇影響較大的引數，而捨棄掉影響較小的那個；

實際應用中 L2正則表現往往會優於 L1正則，但 L1正則會大大降低我們的計算量

0x5：不同懲罰引數下，正則化效果視覺化

為了更好的直觀體會L1和L2正則化對權重的制約過程，我們在mnist上訓練一個經典的CNN分類器，提取出所有的權重，求出其分佈來看看。所有權重初始化為均值0，方差0.5的正態分佈。

# -*- coding: utf-8 -*-

from __future__ import print_function
import keras
from keras.datasets import mnist
from keras.models import Sequential, Model
from keras.layers import Dense, Dropout, Flatten, Input
from keras.layers import Conv2D, MaxPooling2D
from keras import backend as K
from keras import initializers
import numpy as np
import matplotlib.pyplot as plt
from keras import regularizers

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train = x_train.reshape(x_train.shape[0], 28, 28, 1)
x_test = x_test.reshape(x_test.shape[0], 28, 28, 1)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255.0
x_test /= 255.0
y_train = keras.utils.to_categorical(y_train, 10)
y_test = keras.utils.to_categorical(y_test, 10)


def my_reg(weight_matrix):
    #return 0    # 無正則化
    return 1.0 * K.sum(K.abs(weight_matrix))   # L1正則化
    #return 2.0 * K.sum(K.abs(weight_matrix))   # L1正則化
    #return 1.0 * K.sum(K.pow(K.abs(weight_matrix), 2))   # L2正則化
    #return 2.0 * K.sum(K.pow(K.abs(weight_matrix), 2))   # L2正則化
    #return 1.0 * K.sum(K.abs(weight_matrix)) + 1.0 * K.sum(K.pow(K.abs(weight_matrix), 2)) # L1-L2混合正則化
    #return K.sum(K.pow(K.abs(weight_matrix), 3))   # L3正則化



# 所有權重初始化為均值0，方差0.5的正態分佈
init = initializers.random_normal(mean=0, stddev=0.25, seed=42)

input = Input(shape=(28, 28, 1))
conv1 = Conv2D(32, kernel_size=(3, 3), activation='relu', kernel_initializer=init, kernel_regularizer=my_reg)(input)
conv2 = Conv2D(64, (3, 3), activation='relu', kernel_initializer=init, kernel_regularizer=my_reg)(conv1)
pool1 = MaxPooling2D(pool_size=(2, 2))(conv2)
conv3 = Conv2D(128, (3, 3), activation='relu', kernel_initializer=init, kernel_regularizer=my_reg)(pool1)
pool2 = MaxPooling2D(pool_size=(2, 2))(conv3)
flat = Flatten()(pool2)
dense1 = Dense(128, activation='relu', kernel_initializer=init, kernel_regularizer=my_reg)(flat)
output = Dense(10, activation='softmax', kernel_initializer=init, kernel_regularizer=my_reg)(dense1)
model = Model(inputs=input, outputs=output)
model.compile(loss=keras.losses.categorical_crossentropy, optimizer=keras.optimizers.Adadelta(), metrics=['accuracy'])
model.summary()

for i in range(40):
    model.fit(x_train, y_train, batch_size=128, epochs=1, verbose=0, validation_data=(x_test, y_test))  # 每次只訓練一輪
    score = model.evaluate(x_test, y_test, verbose=0)
    weights = model.get_weights()
    all_weights = np.zeros([0, ])
    for w in weights:
        w_flatten = np.reshape(w, [-1])
        all_weights = np.concatenate([all_weights, w_flatten], axis=0)
    plt.hist(all_weights, bins=100, color="b", normed=True, range=[-1, 1])
    print("epoch=" + str(i) + " loss=%.2f ,acc=%.3f" % (score[0], score[1]))
    plt.title("epoch=" + str(i) + " loss=%.2f ,acc=%.3f" % (score[0], score[1]))
    plt.savefig("mnist_model_weights_hist_%d.png" % (i))
    plt.clf()

讀者在執行的時候可以逐項把my_reg裡的註釋去除，逐個體驗不同的正則化懲罰因子，對權重引數的制約作用。程式碼執行可能較慢，讀者們不要著急。

筆者在學習這部分的時候，視覺化帶來了很多的有趣的思考，相信你也可以體會到數學公式的微小改變，給optimization帶來的巨大變化；以及機器學習專案中，提取出來的特徵是如何被模型選擇，我們如何去幹預這個特徵選擇過程等等。

程式碼執行完畢後會在本地目錄產生很多.png圖片，讀者朋友可以用這個來生成gif動圖，非常直觀。

1. 無正則化

2. L1正則化 - 懲罰因子 = 1e-4

很明顯，L1懲罰因子讓 w 朝著係數矩陣的方向優化。

3. L1正則化 - 懲罰因子 = 1e-3

可以看到，在這個實驗中，1e-3 對權值的壓制作用就已經非常明顯了。在第一輪訓練後，權值向量的分佈就大幅度集中在均值附近，即很多 w 被置為0。

筆者思考：在這個專案中，因為權值向量的維數不高，所以 L1懲罰因子的影響非常顯著，在具體的專案中，你的特徵feature可能高達上萬或者上百萬。相應的，L1懲罰因子可以選擇稍微大一些，提高制約能力。

4. L2正則化 - 懲罰因子 = 1e-4

5. L2正則化 - 懲罰因子 = 1e-3

可以看到，懲罰因子越大，制約能力越強。

淺議過擬合現象(overfitting)以及正則化技術原理

1. 過擬合(overfitting)簡介

0x1：假設空間（hypothesis space）

1. 模型空間/模型搜尋空間

2. 模型引數搜尋空間

0x2：什麼是過擬合？

1. 判斷髮生過擬合的現象 - 訓練集上得到的模型無法適應測試集

1）資料集

2）選用複雜函式進行擬合

3）選用簡單函式進行擬合

4）是否發生了過擬合呢？哪個模型更容易產生過擬合呢？

2. 過擬合產生的本質原因

0x3：複雜函式一定不好嗎？複雜函式一定會導致過擬合嗎？

1. 複雜函式得到正確結果的例子

2. 故事背後的意義

0x4：解決過擬合的一個有效的方法 - 正則化

2. 從模型搜尋空間限制角度看線性模型中的正則化（Regularization）

0x1：正則化簡介

0x2：Lasso迴歸 - 包含L1正則化的線性迴歸

1. L1正則化的作用

2. 以二維損失函式視覺化解釋 L1正則化是如何影響模型權重分配的

3. L1正則化的懲罰因子引數怎麼選擇

0x3：Ridge迴歸 - 包含L2正則化的線性迴歸

1. L2正則化的作用

2. 以二維損失函式視覺化解釋 L2正則化是如何使模型權重分配趨向於小值

3. L2正則化的懲罰因子引數怎麼選擇

0x4：L1、L2正則化各自適合的場景

0x5：不同懲罰引數下，正則化效果視覺化

1. 無正則化

2. L1正則化 - 懲罰因子 = 1e-4

3. L1正則化 - 懲罰因子 = 1e-3

4. L2正則化 - 懲罰因子 = 1e-4

5. L2正則化 - 懲罰因子 = 1e-3

6. L1-L2混合正則化

7. L3正則化

相關推薦

3）

$α | | w | |_{1}$

$α | | w | |_{1}$

$α | | w | |_{1}$