1. 程式人生 > >Paper-[acmi 2015]Image based Static Facial Expression Recognition with Multiple Deep Network Learning

Paper-[acmi 2015]Image based Static Facial Expression Recognition with Multiple Deep Network Learning

[acmi 2015]Image based Static Facial Expression Recognition with Multiple Deep Network Learning

ABSTRACT

該文章作者為EmotiW2015比賽靜態表情識別的亞軍,採用的方法為cnn的級聯,人臉檢測方面也採用了當時3種演算法的共同檢測,
通過在FER2013資料庫上進行模型預訓練,並在SFEW2.0(比賽資料)上fine-tune,從而在比賽的驗證集和測試集上取得55.96%和61.29%
的準確率,遠遠超過比賽的baseline(35.96%,39.13%)。
作者本文主要貢獻如下:

  • 1.實現了CNN架構,在表情識別方面效能卓越。
  • 2.提出了一種資料增強和投票模式,應有提高CNN的效能。
  • 3.提出了一種優化方法自動的決定級聯CNN的權重分配問題。

FaceDetection

由於SFEW資料庫給出的靜態影象,背景非常複雜,同時為了後續的CNN表情分類,人臉的檢測與對齊是非常重要的,因此作者級聯了三個state-of-the-art
的人臉檢測演算法,從而保證人臉檢測的正確性.三種檢測演算法為(JDA,DCNN,MoT),影象事先resize為1024x576.總共幀為372,實驗結果如下表所示:

Method JDA DCNN MoT JDA+DCNN JDA+DCNN+MoT
Det # 333 358 352 363 371

FacePreprocessing

資料預處理對後續的識別有極大的影響,良好的資料預處理可以去除樣本間的無關噪聲,並能夠一定程度的做到資料增強。影象尺寸歸一化(48x48)
直方圖均衡化,去均值除方差。
樣本擴增(論文5.2),由於FER資料庫包含35000+的圖片,因此作者採用fer資料庫進行預訓練,作者對資料進行了隨機的旋轉,從而生成了更多的樣本,使得網路訓練的結果更具有魯棒性。,樣本生成公式以及效果圖如下圖所示:



\[ 樣本新增擾動後生成的圖樣與原始圖樣的對比 \]

CNNModel

基本網路結構

5個conv+relu(step:1),3個stochastic pooling層(kernel_size:3*3,step:2),3個全連線層次(帶relu+dropout)+softmax,隨機初始化引數.
採用sgd優化方式,batch_size:128.

\[ CNN網路結構圖 \]

損失函式與級聯思想

損失函式為softmaxWithLoss,只不過計算的時候一個樣本會與其生成的樣本loss一起計算,整個網路用FER資料庫進行預訓練(base_lr:0.005),當loss突然增加25%或者連續5次觀察loss發現loss上升,則手動的減小學習率,最小的學習率設定為0.0001.
由於隨機初始化引數,因此作者測試的時候,對多個網路進行級聯,從而提高測試的準確率.

\[ 測試時級聯CNN網路結構圖 \]
相比較簡單的加權投票平均的思想,作者認為可以通過學習策略,來決定網路的具體權重。所以提出了一個級聯的似然函式,實際可以理解為根據各個網路的輸出去學習一個全連線層.其中||w|| == 1.

實驗結果

作者分別列出了在FER,SFEW上資料庫的單獨訓練結果以及,採用提升的級聯方式對最終結果的提高。

\[ FER資料集train \, val結果 \]

\[ FER資料集不同Loss與級聯方式的結果 \]

\[ SFEW資料集Vote \, No Vote的結果 \]

\[ SFEW資料集不同Loss與級聯方式的結果 \]

\[ SFEW資料庫上的測試混淆矩陣 \]

結論

預訓練+提升的級聯方式對最終的識別效果有效。同時,樣本擴增對實驗提升也是有作用的。

本文作者: 張峰
本文連結: http://www.enjoyai.site/2018/01/08/
版權宣告: 本部落格所有文章,均採用 CC BY-NC-SA 3.0 許可協議。轉載請註明出處!

相關推薦

Paper-[acmi 2015]Image based Static Facial Expression Recognition with Multiple Deep Network Learning

[acmi 2015]Image based Static Facial Expression Recognition with Multiple Deep Network Learning ABSTRACT 該文章作者為EmotiW2015比賽靜態表情識別的亞軍,採用的方法為cnn的級聯,人臉檢測方面也採用

Magnostics Image-based Search of Interesting Matrix Views for Guided Network Exploration(一種基於網絡信息矩陣圖像的網絡探索方法)

希望 組合 cad 區分 加權 rest 結果 xpl ati 網絡、關系等數據變成如圖的鄰接矩陣時(紅色代表兩個節點也就是人,之間有聯系),但是得到的矩陣會因為順序的問題而出現不同的排列方式,在第一種中會發現因為有聚集的塊狀區域而很容易地把數據分為兩個部分,然後根據數據的

ECCV2016論文 Peak-piloted deep network for facial expression Recognition 解析

1、主要貢獻 提出了一種基於peak-piloted的表情識別新方案(PPDN:peak-piloted deep network),通過建立non-peak影象和peak影象的對映關係,提高了non-peak 影象表情識別的準確率,解決了中間表情(non-p

Paper-[arXiv 1710.03144]Island Loss for Learning Discriminative Features in Facial Expression

[arXiv 1710.03144]Island Loss for Learning Discriminative Features in Facial Expression ABSTRACT 作者在CenterLoss的基礎上,提出了一個新的Loss,在關注類別的類內距離的同時,優化類間距離,使得每個類別擁

Machine learning for improved image-based wavefront sensing

均方誤差 多個 nms ear 誤差 隨機選擇 公司 選擇 標準 ---恢復內容開始---   基於圖像的波前傳感是一種利用參數化物理模型和非線性優化計算點擴散函數(Psf)來測量波前誤差的方法。當執行基於圖像的波前傳感時,探測器上捕獲一個psf,物理模型創建一個波前,生成

static Constant expression contains invalid operat

mes ria Language template 今天 ted str clas manual 今天這篇文章主要是在項目中遇到了一個小問題:給一個類裏面的靜態數組裏面的元素賦值時遇到的,public static $msgTemplate = [self::MSG_TEM

Paper Reading - Convolutional Image Captioning ( CVPR 2018 )

useful rom ets ict inno entropy indexing com rtu Innovations: The authors develop a convolutional ( CNN-based ) image captioning method

《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its...》論文閱讀之CRNN

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition paper: CRNN 翻譯:CRNN

深度學習論文翻譯解析(二):An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

論文標題:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 論文作者: Baoguang Shi, Xiang B

[Paper Reading] A QoE-based Sender Bit Rate Adaptation Scheme for Real-time Video Transmission

A QoE-based Sender Bit Rate Adaptation Scheme for Real-time Video Transmission in Wireless Networks 發表 這篇文章發表於CISP2013,作者是南郵的Chao Qian。 概述

Patch-Based Optimization for Image-Based Texture Mapping(SIGGRAPH 17)翻譯

   對基於影象的紋理對映進行基於塊的優化(Patch-Based Optimization for Image-Based Texture Mapping)                                                          

Method for video promo clips via facial expression tracking

But that hyper-short video format presents a challenge -- tackled by researchers from the University of Maryland, Netflix, Harvard Business School and San

論文筆記:An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

1.歷史方法 1)基於字元的DCNN,比如photoOCR.單個字元的檢測與識別。要求單個字元的檢測器效能很強,crop的足夠好。 2)直接對圖片進行分類。9萬個單詞,組合成無數的單詞,無法直接應用 3)RNN,訓練和測試均不需要每個字元的位置。但是需要預處理,從圖片得到特

顏值估計(1)Label distribution based facial attractiveness computation by deep residual learning

版權宣告:本篇文章為博主原創文章,碼字不易,未經博主允許,不得轉載:https://mp.csdn.net/postedit/79810023Label distribution based facial attractiveness computation by deep

17-11-22 Deep Reinforcement Learning-based Image Captioning with Embedding Reward論文隨筆

image captioning 之所以是一個很具有挑戰性的課題,一是因為理解文章內容很難,而是因為自然語言的描述具有多樣性。最近深度神經網路的進步基本提高了這項任務的表現,大多數方法遵循的是編解碼的框架,用一系列迴圈預測模型生成描述。然而,在這篇論文中,我們介紹的是一種新

3D【3】人臉重建:Image Based 3D Face Reconstruction: A Survey閱讀筆記

該論文是09年的一篇3D人臉重建綜述文章。 目前的大部分3D人臉重建系統受限於3d掃描裝置的一些不足: 1、在掃描過程中要求一定的光線條件 2、無法從多個物體同時獲取3D資料 3、沒有反射的區域無法獲得正確資料(如頭髮) 4、無法實時 5、如果是鐳射

Deep Residual Learning for Image Recognition

ant PE ear network sub cit test error inpu Kaiming HeXiangyu ZhangShaoqing RenMicrosoft Research {kahe, v-xiangz, v-shren, jiansun}@micr

【論文翻譯】ResNet論文中英對照翻譯--(Deep Residual Learning for Image Recognition

【開始時間】2018.10.03 【完成時間】2018.10.05 【論文翻譯】ResNet論文中英對照翻譯--(Deep Residual Learning for Image Recognition) 【中文譯名】深度殘差學習在影象識別中的應用 【論文連結】https://arx

精讀 SBAR SDN flow-Based monitoring and Application Recognition

目錄 架構 測量模組 分類模組 具體實現 實驗:最後接入巴塞羅那的校園網流量測試: SBAR: SDN flow-Based monitoring and Application Recognition SOSR 2018 po

ResNet: Deep Residual Learning for Image Recognition詳解

Deep Residual Learning for Image Recognition 這是一篇2015年何凱明在微軟團隊提出的一篇大作,截止目前其論文引用量達12000多次。 摘要    網路比較深的模型比較難以訓練。作者提出了一個殘差學習的框架來減輕模型的訓練難度,