深度學習 lab14_2 WGAN學習筆記(KL JS divergence, improved WGAN)

阿新 • • 發佈：2018-12-11

Concept

KL JS divergence

https://www.cnblogs.com/smuxiaolei/p/7400923.html

https://www.bilibili.com/video/av19193502?from=search&seid=15708729020988943650

kl divergence

使用entropy公式計算

在這裡插入圖片描述
（1）以八種天氣情況作為例子，這張圖是ground truth , entropy是2.23

（2） bits 數不同
在這裡插入圖片描述

（3）預測的結果的 entropy 是4.58
在這裡插入圖片描述

在這裡插入圖片描述

如果 q == p（ground truth）兩分佈相同，cross entropy = entropy，KL divergence ==0。

如果q！=p（ground truth），cross entropy = entropy + KL divergence，所以 KL divergence 必大於0。
在這裡插入圖片描述

其中 h（p）在圖二，圖二是真正分佈。

js divergence

在這裡插入圖片描述

JS散度是利用KL散度來得到的。JS是對稱的而且值是有界的[0,1].
JS散度解決了KL不對稱的問題，JS是對稱的。
很明顯，如果P1，P2完全相同，那麼JS =0，如果完全不相同，那麼就是1.

但是KL和JS散度來度量時候有一個問題：
如果兩個分配P,Q離得很遠，完全沒有重疊的時候，那麼KL值是沒有意義的，而JS值是一個常數。這在學習演算法中是比較致命的，這就意味這這一點的梯度為0。梯度消失了。

WGAN

P_data : real data 的分佈
P_G : generator 生出來的 data 的分佈

在這裡插入圖片描述

要max 這個 object function，有毛病，如字幕。

所以需要一個平滑函式， 1-lipschitz

E_{x~p_{_{_data}}}
x 指從 real data 分佈中的 data。

1-lipschitz

在這裡插入圖片描述

weight clipping

在這裡插入圖片描述

improved WGAN

WGAN-GP
在第三部加上後面的浪打項，有點像是regularization

做不到，因為D(x) 的x是所有的data。所有的imgae 太多，不管在train還是幹嘛的都做不到，所以只拿 Pdata 和 Pg 之間的 penalty出來，即

x~penalty(noun. 處罰，罰款，沒見過的單詞，查了一下方便背誦) 指 Pdata 和 Pg 分佈之間，隨機取一點出來，因此有了以上藍色區域。

實作的時候，實際做法如下，因為論文寫道操作起來梯度越接近一越好，所以替換掉

implement（WGAN-GP）

程式碼

加 WGAN weight clip 的話，浪打項裡使用的（梯度-1）的平方，效果驚人的差，換成 relu勉勉強強好一點（relu相當於 max，因為relu本書是max（x,0）），但是也不能看。

在這裡插入圖片描述

所以再實作的時候，記得把 WGAN的weight clip去掉

深度學習 lab14_2 WGAN學習筆記(KL JS divergence, improved WGAN)

Concept KL JS divergence https://www.cnblogs.com/smuxiaolei/p/7400923.html https://www.bilibili.com/video/av19193502?from=search&seid=15

vue.js 源代碼學習筆記 ----- helpers.js

red stat delet prop pre != help cap nbu /* @flow */ import { parseFilters } from ‘./parser/filter-parser‘ export function baseWarn (ms

【深度學習】Pytorch 學習筆記

chang www. ans 如何 ret == 筆記 etc finished 目錄 Pytorch Leture 05: Linear Rregression in the Pytorch Way Logistic Regression 邏輯回歸 - 二分類 Lect

基於深度學習智能問答筆記

align 背景問題方法範圍神經網絡根據驗證實體基於深度學習智能問答筆記自動問答系統的兩個主要難題是：1.問句的真實意圖分析。2.問句與答案之間的匹配關系判別。問答系統可分為面向限定域的問答系統，面向開放域的問答系統，面向常用問題集（

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第三課詞向量（2）

一、word2vec 1、回顧：skip-grams word2vec的主要步驟是遍歷整個語料庫，利用每個視窗的中心詞來預測上下文的單詞，然後對每個這樣的視窗利用SGD來進行引數的更新。對於每一個視窗而言，我們只有2m+1個單詞（其中m表示視窗的半徑），因此我們計算出來的梯度向量是

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第二課詞向量（word vector）

課程概要 1、單詞含義 2、word2vec介紹 3、word2vec目標函式的梯度推導 4、目標函式優化：梯度下降法一、單詞含義含義（meaning）指的是由單詞表達的觀點。我們一般使用單詞含義的方法是，使用像WordNet那樣的分類詞典，給每個單詞對應的上下義關係以及同義

深度學習花書學習筆記第十一章實踐方法論

效能度量根據任務需求，需要有不同的效能度量方式，常規度量方式如下： _ 真假認為真 true positive(TP) false positive(FP)

深度學習花書學習筆記第十章序列建模：迴圈神經網路

展開計算圖就是將迴圈圖展開成展開圖而已。迴圈神經網路就是如上網路，將某一層不斷重複，輸出重新作為輸入的一部分。雙向RNN 應用於上下文環境都影響結果的場景，如語音識別，文章翻譯等基於編碼-解碼的序列到序列架構可以將可變長度的輸入轉

深度學習花書學習筆記第十三章線性因子模型

線性因子模型通常用作其他混合模型的組成模組，用於描述資料生成過程。各種線性因子模型的主要區別在先驗概率不一樣。概率PCA服從高斯先驗。獨立成分分析不服從高斯先驗。其功能類似em演算法。用於分離特徵。區別？慢特徵分析（SFA）源於慢性原則。稀疏編碼可以進行特徵選擇。 PCA

深度學習花書學習筆記第十二章應用

大規模深度學習首先深度學習之所以能夠在現在獲得大的突破，主要依靠於硬體技術的進步和大資料的發展。卷積神經網路需要的高併發，依賴於GPU的發展不斷進步，甚至已經有了很多專用裝置，如谷歌TPU，阿里和華為也都有最新針對AI演算法的晶片。高併發時可能導致梯度下降出問題，目前多采用非同步梯度下降

Ng深度學習課程-第二章筆記摘要

計算機中為了儲存一張圖片，需要儲存三個矩陣，它們分別對應圖片中的紅、綠、藍三種顏色通道。如果你的圖片大小為 64x64 畫素，那麼就有三個規模為 64x64 的矩陣，分別對應圖片中紅、綠、藍三種畫素的強度值。為了把這些畫素值放到一個特徵向量

深度學習 lab16 強化學習筆記(Q-learning sarsa flappy bird)

concept 三個主要概念：狀態State，行動action，獎勵reward 兩種強化學習的方法 1. Policy-Based(policy-gradient): 直接預測在某個環境下應該採取的action 適用範圍：更通用，action種類非常多

python學習筆記(81) JS基礎

構成：　　1.核心 ECMAScript 　　2.文件物件模型 DOM 　　3.瀏覽器物件模型 BOM 基礎語法：　　1.單行註釋 // 　　2.多行註釋 /* 　　　　　　*/ 　　3.語句必須以;結束　　4.變數宣告關鍵字 var 變數名 = "值"; 　　　　js屬於動態型別(

深度學習花書學習筆記第六章深度前饋網路

深度前饋網路又稱多層感知機、前饋神經網路。即只有從x向y方向的傳播，最終輸出y。主要包括輸入層、隱藏層和輸出層。神經網路的模型可以解決非線性問題。計算網路的引數通過反向傳播；如果每一層隱藏層都只有wx+b的運算，則多層累加變為w1*(w2*(w3*x))+a = W*

python學習筆記(82) JS函式和物件

區域性變數會在函式執行以後刪除，全域性變數會在頁面關閉以後刪除作用域： var city = 'BeiJing';function Bar() { console.log(city);}function f() { var city = 'ShangHai'; return Bar}v

深度學習花書學習筆記第八章深度模型中的優化

學習和純優化有什麼不同我們期望降低的是期望泛化誤差，也叫風險。但是我們平時訓練時是以訓練誤差計算，俗稱經驗風險最小化。可能導致過擬合。訓練方式：當原問題較難運算時，可以計算對等問題，使用代理損失函式。但是提前終止演算法使用的是真實的損失函式一般。當訓練資料過多

【GANs學習筆記】（九）WGAN-GP

6.1 WGAN-GP原理 WGAN待解決的問題是，未能將D真的限制在1-Lipschitz function內。我們不妨觀察一下1-Lipschitz function，會發現它其實等價於如下表達式：也就是說，對於一個可微函式，當且僅當對於

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第八課迴圈神經網路

課程概要 1、傳統語言模型 2、迴圈神經網路 3、例項（python） 4、RNN處理的一些技巧 5、針對其他任務的序列模型 6、總結一、傳統語言模型語言模型可以計算一些系列的單詞的概率P（w1，…,wT) 可以用來進行機器翻譯單詞順序：p(the

js學習記錄（三）《js高階程式設計》讀書筆記2

今天開始讀第三章——基本概念：接下來說明了一些細節，包括語法，區分大小寫，識別符號，註釋，嚴格模式？等等。這一部分在程式設計的過程中自然會注意到。接下來是重要的內容： 3.3變數：這裡跟原來對變數的直覺理解是不一樣的。原來會把變數想象成是一個盒子，盒子

斯坦福大學-自然語言處理與深度學習（CS224n）筆記第十課神經機器翻譯（neural machine translation）與attention模型

本課概要 1、機器翻譯（MT） 2、帶attention的序列模型 3、序列模型解碼器（decoder）一、機器翻譯（MT）機器翻譯是一個十分經典的語言理解的測試，涉及語言分析（language analysis）與語言生成（language generat

深度學習 lab14_2 WGAN學習筆記(KL JS divergence, improved WGAN)

Concept

KL JS divergence

kl divergence

js divergence

WGAN

1-lipschitz

weight clipping

improved WGAN

implement（WGAN-GP）

相關推薦