人群密度估計--Generating High-Quality Crowd Density Maps using Contextual Pyramid CNNs
Generating High-Quality Crowd Density Maps using Contextual Pyramid CNNs
ICCV2017
針對人群密度估計問題,本文主要從 incorporating global and local contextual information 來降低人群密度估計誤差
使用多個CNN網路來估計不同尺度的 context 來幫助人群密度估計
The proposed method uses CNN networks to estimate context at various levels for achieving lower count error and better quality density maps
和文獻【50】的對比
當前方法在人群低密度和高密度時,估計的誤差都比較大
A potential solution is to use contextual information during the learning process.
2 Related work
Regression-based approaches. 為了克服遮擋和背景運動產生的干擾,這類方法使用迴歸方法,學習一個對映,learn a mapping between features extracted from local image patches to their counts,這類方法包含兩個模組: low-level feature extraction and regression modeling
Density estimation-based approaches 迴歸方法雖然解決了 occlusion and clutter 的問題,但是他們忽視了重要的空間資訊,只給出了一個人群總人數。密度估計方法主要學習 local patch features and density maps 之間的對映關係
CNN-based methods 嘗試各種 CNN網路來完成 人群總數估計和人群密度圖生成。
對於以前各種方法分析,我們認為有以下幾點問題:
1)這些方法都沒有顯示的嵌入 context 資訊,而 context 資訊對提升效能很有幫助
2)當前基於迴歸的密度圖估計方法更側重降低人群總數估計誤差,而不是側重人群密度圖的質量
3)當前的 CNN 網路基本都是使用 畫素級歐式損失函式來訓練網路,這導致密度圖比較模糊。
3 Proposed method (CP-CNN)
GCE and LCE 分別提取影象的 global and local context 資訊
DME is a multi-column CNN that performs the initial task of transforming the input image to high-dimensional feature maps
F-CNN 綜合GCE 、LCE 、 DME的結果 produce high-resolution and high-quality density maps
3.1. Global Context Estimator (GCE)
這裡我們是如何表示 global context 的資訊了? 我們將 global context 和影象的密度等級聯絡起來,這裡我們將影象人群密度等級分為五類:extremely low-density (ex-lo), low-density (lo), medium-density (med), high-density (hi) and extremely high-density (ex-hi)
當然具體分多少類 這個和資料庫密度變化範圍有關,但是我們發現僅適用五類就可以明顯提升密度圖估計效果
這裡我們使用一個 CNN網路 將輸入影象進行分類,根據人群密度分為5類, a VGG-16 [31] based network is fine-tuned with the crowd training data
VGG-16 所有的卷積層被保留不變,後面的三個全連線層被替換為不同配置的全連線層,為了完成5分類。後面兩個卷積層引數被微調,其他卷積層引數固定不變。
3.2. Local Context Estimator (LCE)
當前的人群密度估計方法更側重於降低人群總數估計的誤差,所以它們的人群密度圖質量相對降低,我們相信 some kind of local contextual information 能夠幫助我們提升密度圖質量。和 GCE 思路類似,這裡我們使用一個 CNN網路 將影象根據其人群密度分為5類, {ex-lo, lo,med, hi, ex-hi}
3.3. Density Map Estimator (DME)
DME 主要講輸入影象對映到一組 high-dimensional feature maps,這裡我們受文獻【50】的啟發,採用 multi-column architecture
雖然在這裡我們可以通過增加 the filter sizes and number of columns 來解決人群密度變化範圍大的問題,但是這麼做一方面很難適用於不同資料庫,另一個方面計算量較大
3.4. Fusion-CNN (F-CNN)
這裡我們將前面學習到的3類特徵組合起來。
F-CNN is constructed using a set of convolutional and fractionally-strided convolutional layers. The set of fractionally-strided convolutional layers help us to restore details in the output density maps. The following structure is used for F-CNN: CR(64,9)-CR(32,7)- TR(32)-CR(16,5)-TR(16)-C(1,1)
C is convolutional layer, R is ReLU layer, T is fractionally-strided convolution layer
這裡我們參考了 GANs, 將 adversarial loss 引入進來。 improve the quality of density maps by minimizing a weighted combination of pixel-wise Euclidean loss and adversarial loss.
5 Experimental results
ShanghaiTech Part A
UCF CC 50 dataset
WorldExpo’10 dataset