機器學習（ML）十四之凸優化

阿新 • • 發佈：2020-02-20

優化與深度學習

優化與估計

儘管優化方法可以最小化深度學習中的損失函式值，但本質上優化方法達到的目標與深度學習的目標並不相同。

優化方法目標：訓練集損失函式值
深度學習目標：測試集損失函式值（泛化性）

 1 %matplotlib inline
 2 import sys
 3 import d2lzh1981 as d2l
 4 from mpl_toolkits import mplot3d # 三維畫圖
 5 import numpy as np
 6 def f(x): return x * np.cos(np.pi * x)
 7 def g(x): return f(x) + 0.2 * np.cos(5 * np.pi * x)
 8 
 9 d2l.set_figsize((5, 3))
10 x = np.arange(0.5, 1.5, 0.01)
11 fig_f, = d2l.plt.plot(x, f(x),label="train error")
12 fig_g, = d2l.plt.plot(x, g(x),'--', c='purple', label="test error")
13 fig_f.axes.annotate('empirical risk', (1.0, -1.2), (0.5, -1.1),arrowprops=dict(arrowstyle='->'))
14 fig_g.axes.annotate('expected risk', (1.1, -1.05), (0.95, -0.5),arrowprops=dict(arrowstyle='->'))
15 d2l.plt.xlabel('x')
16 d2l.plt.ylabel('risk')
17 d2l.plt.legend(loc="upper right")

View Code

優化在深度學習中的挑戰

區域性最小值
鞍點
梯度消失

區域性最小值

 1 def f(x):
 2     return x * np.cos(np.pi * x)
 3 
 4 d2l.set_figsize((4.5, 2.5))
 5 x = np.arange(-1.0, 2.0, 0.1)
 6 fig,  = d2l.plt.plot(x, f(x))
 7 fig.axes.annotate('local minimum', xy=(-0.3, -0.25), xytext=(-0.77, -1.0),
 8                   arrowprops=dict(arrowstyle='->'))
 9 fig.axes.annotate('global minimum', xy=(1.1, -0.95), xytext=(0.6, 0.8),
10                   arrowprops=dict(arrowstyle='->'))
11 d2l.plt.xlabel('x')
12 d2l.plt.ylabel('f(x)');

View Code

鞍點

1 x = np.arange(-2.0, 2.0, 0.1)
2 fig, = d2l.plt.plot(x, x**3)
3 fig.axes.annotate('saddle point', xy=(0, -0.2), xytext=(-0.52, -5.0),
4                   arrowprops=dict(arrowstyle='->'))
5 d2l.plt.xlabel('x')
6 d2l.plt.ylabel('f(x)');

View Code

 1 x, y = np.mgrid[-1: 1: 31j, -1: 1: 31j]
 2 z = x**2 - y**2
 3 
 4 d2l.set_figsize((6, 4))
 5 ax = d2l.plt.figure().add_subplot(111, projection='3d')
 6 ax.plot_wireframe(x, y, z, **{'rstride': 2, 'cstride': 2})
 7 ax.plot([0], [0], [0], 'ro', markersize=10)
 8 ticks = [-1,  0, 1]
 9 d2l.plt.xticks(ticks)
10 d2l.plt.yticks(ticks)
11 ax.set_zticks(ticks)
12 d2l.plt.xlabel('x')
13 d2l.plt.ylabel('y');

View Code

梯度消失

1 x = np.arange(-2.0, 5.0, 0.01)
2 fig, = d2l.plt.plot(x, np.tanh(x))
3 d2l.plt.xlabel('x')
4 d2l.plt.ylabel('f(x)')
5 fig.axes.annotate('vanishing gradient', (4, 1), (2, 0.0) ,arrowprops=dict(arrowstyle='->'))

View Code

凸性（Convexity）

基礎

集合

函式

 1 def f(x):
 2     return 0.5 * x**2  # Convex
 3 
 4 def g(x):
 5     return np.cos(np.pi * x)  # Nonconvex
 6 
 7 def h(x):
 8     return np.exp(0.5 * x)  # Convex
 9 
10 x, segment = np.arange(-2, 2, 0.01), np.array([-1.5, 1])
11 d2l.use_svg_display()
12 _, axes = d2l.plt.subplots(1, 3, figsize=(9, 3))
13 
14 for ax, func in zip(axes, [f, g, h]):
15     ax.plot(x, func(x))
16     ax.plot(segment, func(segment),'--', color="purple")
17     # d2l.plt.plot([x, segment], [func(x), func(segment)], axes=ax)

View Code

Jensen 不等式

性質

無區域性極小值
與凸集的關係
二階條件

無區域性最小值

與凸集的關係

 1 x, y = np.meshgrid(np.linspace(-1, 1, 101), np.linspace(-1, 1, 101),
 2                    indexing='ij')
 3 
 4 z = x**2 + 0.5 * np.cos(2 * np.pi * y)
 5 
 6 # Plot the 3D surface
 7 d2l.set_figsize((6, 4))
 8 ax = d2l.plt.figure().add_subplot(111, projection='3d')
 9 ax.plot_wireframe(x, y, z, **{'rstride': 10, 'cstride': 10})
10 ax.contour(x, y, z, offset=-1)
11 ax.set_zlim(-1, 1.5)
12 
13 # Adjust labels
14 for func in [d2l.plt.xticks, d2l.plt.yticks, ax.set_zticks]:
15     func([-1, 0, 1])

View Code

凸函式與二階導數

 1 def f(x):
 2     return 0.5 * x**2
 3 
 4 x = np.arange(-2, 2, 0.01)
 5 axb, ab = np.array([-1.5, -0.5, 1]), np.array([-1.5, 1])
 6 
 7 d2l.set_figsize((3.5, 2.5))
 8 fig_x, = d2l.plt.plot(x, f(x))
 9 fig_axb, = d2l.plt.plot(axb, f(axb), '-.',color="purple")
10 fig_ab, = d2l.plt.plot(ab, f(ab),'g-.')
11 
12 fig_x.axes.annotate('a', (-1.5, f(-1.5)), (-1.5, 1.5),arrowprops=dict(arrowstyle='->'))
13 fig_x.axes.annotate('b', (1, f(1)), (1, 1.5),arrowprops=dict(arrowstyle='->'))
14 fig_x.axes.annotate('x', (-0.5, f(-0.5)), (-1.5, f(-0.5)),arrowprops=dict(arrowstyle='->'))

View Code

限制條件

拉格朗日乘子法

懲罰項

投影

機器學習（ML）十四之凸優化

優化與深度學習優化與估計儘管優化方法可以最小化深度學習中的損失函式值，但本質上優化方法達到的目標與深度學習的目標並不相同。優化方法目標：訓練集損失函式值深度學習目標：測試集損失函式值（泛化性） 1 %matplotlib inline 2 import sys 3 im

機器學習（ML）十二之編碼解碼器、束搜尋與注意力機制

編碼器—解碼器（seq2seq）在自然語言處理的很多應用中，輸入和輸出都可以是不定長序列。以機器翻譯為例，輸入可以是一段不定長的英語文字序列，輸出可以是一段不定長的法語文字序列，例如英語輸入：“They”、“are”、“watching”、“.” 法語輸出：“Ils”、“regardent”、“.”

機器學習（ML）十之CNN

CNN-二維卷積層卷積神經網路（convolutional neural network）是含有卷積層（convolutional layer）的神經網路。卷積神經網路均使用最常見的二維卷積層。它有高和寬兩個空間維度，常用來處理影象資料。二維互相關運算雖然卷積層得名於卷積（convolution）運算，

機器學習（ML）七之模型選擇、欠擬合和過擬合

訓練誤差和泛化誤差需要區分訓練誤差（training error）和泛化誤差（generalization error）。前者指模型在訓練資料集上表現出的誤差，後者指模型在任意一個測試資料樣本上表現出的誤差的期望，並常常通過測試資料集上的誤差來近似。計算訓練誤差和泛化誤差可以使用之前介紹過的損失函式，例如線

機器學習（ML）九之GRU、LSTM、深度神經網路、雙向迴圈神經網路

門控迴圈單元（GRU）迴圈神經網路中的梯度計算方法。當時間步數較大或者時間步較小時，迴圈神經網路的梯度較容易出現衰減或爆炸。雖然裁剪梯度可以應對梯度爆炸，但無法解決梯度衰減的問題。通常由於這個原因，迴圈神經網路在實際中較難捕捉時間序列中時間步距離較大的依賴關係。門控迴圈神經網路（gated recurre

機器學習（ML）十三之批量歸一化、RESNET、Densenet

批量歸一化批量歸一化（batch normalization）層，它能讓較深的神經網路的訓練變得更加容易。對影象處理的輸入資料做了標準化處理：處理後的任意一個特徵在資料集中所有樣本上的均值為0、標準差為1。標準化處理輸入資料使各個特徵的分佈相近：這往往更容易訓練出有效的模型。通常來說，資料標準化預處理對於

機器學習（八）kaggle競賽之泰坦尼克號專案實戰-1

引言機器學習演算法都是為專案為資料服務的，某一個演算法都有它自己的適用範圍，以及優勢與劣勢，研究演算法由於平日的日常操練，那麼用它去做專案就如同上戰場殺敵一樣，去發揮它的價值，kaggle就是這樣一個刷怪升級

人工智慧（AI）、機器學習（ML）與深度學習（DL）概念

人工智慧電腦科學家們設計可以學習和模仿人類行為的演算法。機器學習一種實現人工智慧的方法。機器學習最基本的做法，是使用演算法來解析資料、從中學習，然後對真實世界中的事件做出決策和預測。指通過資料訓練出能完成一定功能的模型，是實現人工智慧的手段之一，

科普貼開篇：到底什麼是人工智慧（AI）、機器學習（ML）和深度學習（DL

這兩年創業圈、技術圈、網際網路圈都在熱烈討論人工智慧、機器學習、深度學習，那麼到底什麼是人工智慧（AI）、機器學習（ML）和深度學習（DL），這幾個概念之間又有什麼樣的聯絡呢？先直接把這三者之間關係放上來哈：機器學習，實現人工智慧的方法；深度學習，實現機器學習的技術；關於以上三個概念的介紹和解釋： 1