花書學習筆記(2) 病態、梯度優化、約束優化

病態條件

條件數：是指函式相對於輸入的微小變化而變化的快慢程度。而微小的輸入變化導致劇烈的輸出變化時，方程存在病態。描述f(x)=A−1x的條件數定義為：

maxi,j∣∣∣λ1λ2∣∣∣
即最大與最小特徵值之比。當該數很大時，輸出對輸入誤差敏感。

梯度下降

對x在x0處做泰勒展開：

f(x)=f(x(0))+(x−x(0))Tg+12(x−x(0))TH(x−x(0))
將x=x(0)−ϵg代入得到：
f(x−x(0))=f(x(0))−ϵgTg+12ϵ2gTHg
當gTHg為0或者負時，增大ϵ將永遠使f減小。
當gTHg為正時，下降最多的最優的ϵ為：
ϵ∗=gTggTHg
牛頓法
同樣二階泰勒展開：

x∗=x−H(f)(x(0))−1∇xf(x(0))
當H陣的所有特徵值為正的時候牛頓法才適用

約束優化

首先無約束問題的優化，可以計算一階導數的零點或者使用梯度下降法逐漸逼近最小點。
如果有等式約束，如：

minf(x),s.t.hi(x)=0,i=0,1,...
構建拉格朗日方程：
L(x,λ)=f(x)+∑iαihi(x)
解法，分別對引數x和lambda進行求導，
aLax=0,aLaλ=0
廣義拉格朗日函式。假設h(j)為等式約束，g(i)為非等式約束。構建廣義拉格朗日函式：

L(x,λ,α)=f(x)+∑iλig(i)(x)+∑jαjh(j)(x)
那麼：
minxmax

λmaxα,α≥0L(x,λ,α)
接下來怎麼解？

以最小二乘為例

f(x)=12||Ax−b||22
如果沒有約束，則對x求導，得到：
∇xf(x)=AT(Ax−

花書學習筆記(2) 病態、梯度優化、約束優化

病態條件條件數：是指函式相對於輸入的微小變化而變化的快慢程度。而微小的輸入變化導致劇烈的輸出變化時，方程存在病態。描述f(x)=A−1x的條件數定義為： maxi,j∣∣∣λ1λ2∣∣∣ 即最大

深度學習花書學習筆記第八章深度模型中的優化

學習和純優化有什麼不同我們期望降低的是期望泛化誤差，也叫風險。但是我們平時訓練時是以訓練誤差計算，俗稱經驗風險最小化。可能導致過擬合。訓練方式：當原問題較難運算時，可以計算對等問題，使用代理損失函式。但是提前終止演算法使用的是真實的損失函式一般。當訓練資料過多

深度學習花書學習筆記第十一章實踐方法論

效能度量根據任務需求，需要有不同的效能度量方式，常規度量方式如下： _ 真假認為真 true positive(TP) false positive(FP)

深度學習花書學習筆記第十章序列建模：迴圈神經網路

展開計算圖就是將迴圈圖展開成展開圖而已。迴圈神經網路就是如上網路，將某一層不斷重複，輸出重新作為輸入的一部分。雙向RNN 應用於上下文環境都影響結果的場景，如語音識別，文章翻譯等基於編碼-解碼的序列到序列架構可以將可變長度的輸入轉

深度學習花書學習筆記第十三章線性因子模型

線性因子模型通常用作其他混合模型的組成模組，用於描述資料生成過程。各種線性因子模型的主要區別在先驗概率不一樣。概率PCA服從高斯先驗。獨立成分分析不服從高斯先驗。其功能類似em演算法。用於分離特徵。區別？慢特徵分析（SFA）源於慢性原則。稀疏編碼可以進行特徵選擇。 PCA

深度學習花書學習筆記第十二章應用

大規模深度學習首先深度學習之所以能夠在現在獲得大的突破，主要依靠於硬體技術的進步和大資料的發展。卷積神經網路需要的高併發，依賴於GPU的發展不斷進步，甚至已經有了很多專用裝置，如谷歌TPU，阿里和華為也都有最新針對AI演算法的晶片。高併發時可能導致梯度下降出問題，目前多采用非同步梯度下降

深度學習花書學習筆記第六章深度前饋網路

深度前饋網路又稱多層感知機、前饋神經網路。即只有從x向y方向的傳播，最終輸出y。主要包括輸入層、隱藏層和輸出層。神經網路的模型可以解決非線性問題。計算網路的引數通過反向傳播；如果每一層隱藏層都只有wx+b的運算，則多層累加變為w1*(w2*(w3*x))+a = W*

犀牛書學習筆記2：作用域

作用域（scope）：詞法作用域（lexical scope）（3.10.1節） ——函式作用域、全域性變數和區域性變數 JavaScript是基於詞法作用域（lexical scope，也成為靜態作用域 st

深度學習花書學習筆記第十五章表示學習

本章的表示學習主要就是通過無監督訓練學習特徵的意思。這種沒有具體的演算法，就是介紹表示學習的應用和大概的分支，至於如何進行表示學習，沒有詳細介紹。感覺可以直接跳過。。貪心逐層無監督預訓練貪心演算法在無監督訓練中的應用，每層只關心當前，進行訓練。無監督指低層訓練

深度學習花書學習筆記第九章卷積網路

卷積運算內積和外積中的內積被通常認為時卷積，可交換性是因為他經過了翻轉。但是神經網路中一般不應用翻轉。而是直接使用互相關函式：動機三大特性：稀疏互動、引數共享、等變表示。稀疏互動：核的大小遠小於輸入。相對於全連線，一個輸入項隻影響較少神經元，大大減少運

linux學習筆記2——計算機概述：記憶體、硬碟、固態硬碟、擴充套件介面、網際網路企業PC伺服器品牌及型號

一、記憶體記憶體大概長這樣，插在主機板上。個人電腦的記憶體主要元件為動態隨機存取記憶體（Dynamic Random Access Memory, DRAM），隨機存取記憶體只有在通電時才能記錄與使用，斷電後資料就消失了。因此我們也稱這種RAM為揮發性記憶體。

《白話深度學習與Tensorflow》學習筆記（2）梯度下降、梯度消失、引數、歸一化

1、CUDA(compute unified device architecture)可用於平行計算: GTX1060 CUDA核心數：1280 視訊記憶體大小：6G 2、隨機梯度下降：計算偏導數需要的計算量很大，而採用隨機梯度下降（即採用取樣的概念）從中提取一部分樣

Cocos2D-X2.2.3學習筆記8(處理精靈單擊、雙擊和三連擊事件)

屏幕 () rtu cati 輸出 public exit 什麽是 avi 我們依據上一次介紹的觸屏事件和事件隊列等知識來實現觸屏的單擊，雙擊，三連擊事件。下圖為我們實現的效果圖：單擊精靈跳躍一個高度，雙擊精靈跳躍的高度比單擊的高三連擊精靈跳躍的跟高

36、我的C#學習筆記2

c#類是一種數據結構，它可以封裝數據成員、函數成員和其它的類。類是創建對象的模板。C#中所有語句都必須位於類內。因此，類是C#語言的核心和基本構成模塊。C#支持自定義類，使用C#編程就是編寫自己的類來描述實際需要解決的問題。類就好比是醫院的各個部門，如：內科、骨科、泌尿科、眼科等，在各科室中都有自己的工作方法

ElasticSearch學習筆記--2、ES相關配置

last 學習 -- code logs 相關數 clas 名稱 config 1、配置文件 ES的配置文件位置：config/elasticsearch.yml可以直接搜索elasticsearch.yml 2、配置遠程api訪問 network.host: 192

python自動化測試學習筆記-2-字典、元組、字符串方法

ima weight ict 常用分享圖片 def 刪除列設置統計一、字典 Python字典是另一種可變容器模型，且可存儲任意類型對象，如字符串、數字、元組等其他容器模型。字典的每個鍵值(key=>value)對用冒號(:)分割，每個對之間用逗號(,)分割，

【吳恩達機器學習】學習筆記——2.7第一個學習算法=線性回歸+梯度下降

com 梯度 .com 局部最優 alt ima 實現梯度下降 width 梯度下降算法：　　　　　　　　　　　　　　線性回歸模型：　　　　　　線性假設：　　　　　　　　　　　　　　　　　　　　　平方差成本函數：將各個公式代入，對θ0、θ1分別求偏導得：再將偏

《機器學習-西瓜書》-周志華-學習筆記系列（1）--序言、前言和主要符號表

寫在前面的話：自己於今天（2018年9月4日）看完了機器學習-西瓜書-周志華-清華大學出版社書籍，對於這本書的評價就是：好書，自己可以在每一個字裡行間感受到作者的用心，每當看到一個不懂的名詞的時候，作者都會用通俗的例子來講解，遇到公式的時候，也會進行推導，側邊欄的一些說明資訊往往能帶給自己

keras學習筆記2——Merge理解、GPU的設定方法，以及新手的注意事項

keras學習筆記2——Merge、GPU呼叫、快速開始及常見問題參考資料：http://keras-cn.readthedocs.io/en/latest/ 1. Merge層 Merge層主要是用來合併多個model的，例子如下： from keras.layers impor

Ubuntu作業系統學習筆記2（vi文字編輯器、程序的基本狀態及其轉換）

文字編輯器是對純文字檔案進行編輯、檢視、修改等操作的應用程式。vi編輯器具有文字編輯的所有功能，並且執行速度快，具有強大的編輯功能，廣泛的適用性和靈活性。一、vi文字編輯器 1、vi編輯器的啟動與退出（1）啟動格式：vi [檔名] 檔名有以下情況：未指定檔

花書學習筆記(2) 病態、梯度優化、約束優化

病態條件

梯度下降

約束優化

以最小二乘為例

相關推薦