1. 程式人生 > >近期deep learning做影象質量評價(image quality assessment)的論文3

近期deep learning做影象質量評價(image quality assessment)的論文3

1、VeNICE: A very deep neural network approach to no-reference image assessment.

1.1框架:總共包括5個group,group1:conv,conv,relu,maxpool;group2:conv,conv,relu,maxpool;group3:conv,conv,conv,relu,maxpool;group4:conv,conv,conv,relu,maxpool;group5:conv,conv,conv,relu,maxpool;卷積層的引數直接fine-tuneVGG16的引數。全連線層:49-512-4096-1。

1.2 引數設定:input:224*224;batch size:7;epochs:200;learning rate:0.0001

2、2016ICASSP:Blind image quality assessment formultiply distorted images via convolutional networks. 同濟大學

2.1相比於2014年的CVPR(Le Kang),此篇論文增加了feature map的數量,增加了全連線的數量。

2.2 Conv + max pool,average pool,dense 2048, dense 2048, output.

2.3 卷積層後面接Relu,對輸入進行normalization處理。注:與MSCN不同,類似。

2.4 實驗部分:75% train set, 25% fortesting. 取三次的平均結果。SROCC:0.9703

3. 2016ISCID:Blind image quality assessment via convolutional neural network.

----CNN提取features, SVR用來回歸分數。

----和Kang Le的框架一樣。只不過在pooling的時候,選擇了四種pooling strategies. Max,min, mean, variance。

----conv + pool + dense 800 + dense 800 + output

搞不懂為什麼定義成一個分類的問題???

4. 2017IEEESignal Processing Magazine: Deep convolutional neural models for picturequality prediction. Jongyoo Kim, 很厲害!!!

----第一種方法:用AlexNet(4096維),ResNet(2048維)提取features,用SVR做迴歸訓練。其中,每一張影象隨機提取25個影象塊,將獲得的25個特徵向量進行平均處理。作為SVR的input。

----第二種方法:使用pre-train的AlexNet和ResNet完成end to end的訓練。每張影象提取100 patches,損失函式:L1 Norm,dropout rate: 0.5,Learning rate: 0.001,8 and 6 epochs on AlexNet andResNet 50。Batch size: 50。測試時:隨機從影象中擷取25個影象塊,預測得到的25個分數進行平均,為測試影象的分數。

----第三種方法:training from scratch,architecture: Conv-48,Conv-48, withstride 2,Conv-64,Conv-64,with stride 2,Conv-64,Conv-64,Conv-128,Conv-128,FC-128,FC-128,FC-1。使用3*3的filters。最後一層的時候,直接對每一個feature map進行average操作,變成了128維,後面就直接跟著全連線層了。(這樣大大的減少了引數),損失函式:L2 Norm,每一張影象分成112*112 patches。有一個數據的擴增操作:水平翻轉。每一個minbatch中,包含來自5張影象的patch。訓練80 epoach。

5、2017ICCV:RankIQA: Learning from rankings forno-reference image quality assessment, XiaLei Liu, 有程式碼

       //// 採用2005CVPR的相似結構,【Gw(X1)為網路輸出的features,該網路結構學習的目的是兩張相似的圖片,其獲得的結果也是相似的】,該論文結構與Kede Ma 2017TIP的網路結構是一樣的,只不過Kede Ma的網路結構是全連線的,而該論文使用一些比較出名的網路進行試驗,如AlexNet,VGG16。輸入是一張影象,輸出是影象的質量。在訓練時,輸入是兩張影象,分別得到對應的分數,將分數的差異嵌入loss層,再進行反向傳播。

       //// 訓練時,每次從影象中隨機提取224*224或者227*227大小的影象塊。和AlexNet、VGG16有關。在訓練Siamese network時,初始的learning rate 是1e-4;fine-tuning是初始的learning rate是1e-6,每隔10k步,rate變成原來的0.1倍。訓練50k次。

       //// 測試時,隨機在影象中提取30個影象塊,得到30個分數之後,進行均值操作。

6. 2017TIP.Waterloo Exploration Database: New Challenges for Image Quality AssessmentModels.

       ---- D測試:檢驗IQA模型是否能夠較好地分開原始影象和失真影象。

       ---- L測試:檢驗同一種失真型別下,不同程度失真影象的consistent ranking。

       ---- P 測試:檢驗演算法偏好的一致性,是否能將質量差異明顯的影象分開。

6.1 如何生成DIPs.

       使用三種全參考影象質量評價方法,包括MS-SSIM,VIF,GMSD。在生成DIPs之前,將計算得到的客觀分數,對映到同一個尺度下,比如與LIVE資料庫的尺度一樣。

7、2017TIP,Kede Ma, End to end blind imagequality assessment using deep neural networks.

7.1、Network:

訓練時,是多階段的。Subtask I, 訓練一個分類網路,輸出是一個向量,表示影象屬於哪種失真的概率,損失函式為交叉熵。Subtask II, fine tunesubtask I的引數。並且將subtask I的輸出與預測層的向量進行點乘.  測試時,給定一張影象,隨機提取256*256*3的影象塊,影象的失真型別由影象塊的失真型別投票所得。影象的分數為所有影象塊分數的均值。