1. 程式人生 > >[計算機視覺論文速遞] 2018-03-16

[計算機視覺論文速遞] 2018-03-16

通知:本文有14篇論文速遞資訊,涉及目標檢測、影象分割、顯著性目標檢測、人臉識別和GAN等方向

目標檢測

[1]《Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection》

Abstract:對於行人檢測來說,色彩 - 熱量對的多光譜影象比單一顏色通道更有效,特別是在具有挑戰性的照明條件下。但是,如何有效融合這兩種模式仍然缺乏研究。在本文中,我們深入比較了六種不同的卷積網路融合體系結構並分析了它們的適應性,使得vanilla architecture能夠獲得與最新結果相媲美的檢測效能。此外,我們發現,來自彩色或熱影象的行人檢測可信度與照明條件相關。考慮到這一點,我們提出了一種照明感知更快的R-CNN(IAF RCNN)。具體而言,引入照明感知網路來給出輸入影象的照明度量。Then we adaptively merge color and thermal sub-networks via a gate function defined over the illumination value. The experimental results on KAIST Multispectral Pedestrian Benchmark validate the effectiveness of the proposed IAF R-CNN.

arXiv:https://arxiv.org/abs/1803.05347

[2]《Rotation-Sensitive Regression for Oriented Scene Text Detection》

CVPR 2018

Abstract:自然影象中的文字具有任意方向,需要根據定向邊界框進行檢測。通常情況下,多導向的文字檢測器往往涉及兩個關鍵任務:1)文字存在檢測,這是一個無視文字方向的分類問題; 2)面向邊界框的迴歸,它關注文字的方向。以前的方法依賴於這兩個任務的共享功能,由於兩個任務不相容導致效能下降。為了解決這個問題,我們提出對不同設計的兩個網路分支提取不同特徵的特徵進行分類和迴歸。具體而言,迴歸分支通過主動旋轉卷積濾波器來提取旋轉敏感特徵,而分類分支通過彙集旋轉敏感特徵來提取旋轉不變特徵。所提出的方法名為旋轉敏感迴歸檢測器(RRD),在三個面向文字的基準資料集(包括ICDAR 2015,MSRA-TD500,RCTW-17和COCO-Text)上實現了最先進的效能。此外,RRD在船舶採集資料集上實現了重大改進,證明了其在面向物件檢測方面的一般性。

arXiv:https://arxiv.org/abs/1803.05265

[3]《Knowledge-based Recurrent Attentive Neural Network for Traffic Sign Detection》

Abstract:準確的交通標誌檢測(TSD)可以幫助駕駛員根據交通規則做出更好的決策。 TSD作為一種典型的小型物體檢測問題,在自動駕駛和先進的駕駛輔助系統領域是非常重要的。 但是,小物體檢測仍然是一個懸而未決的問題。 在本文中,我們提出了一個人腦啟發網路來處理這個問題。 注意機制是我們大腦的基本功能,我們使用了一種新穎的週期性注意神經網路,以精細獲得的方式提高檢測精度。 此外,由於我們人類可以結合領域特定知識和直覺知識來解決棘手的任務,因此我們提出了一個假設,即交通標誌的位置服從反向高斯分佈,這意味著位置在每張圖片的中心偏向附近。 實驗結果表明,我們的方法比目標檢測中使用的幾種常用方法取得了更好的效能。

arXiv:https://arxiv.org/abs/1803.05263

[4]《Revisiting Salient Object Detection: Simultaneous Detection, Ranking, and Subitizing of Multiple Salient Objects》

Abstract:顯著目標檢測是一個已被詳細考慮的問題,並提出了許多解決方案。在本文中,我們認為迄今為止的工作已經解決了一個相對不合適的問題。具體而言,當多個觀察者被詢問時,對於什麼構成顯著目標並沒有普遍的一致意見。這意味著一些目標比其他目標更有可能被判斷為顯著,並且意味著顯著物體上存在相對等級。本文提出的解決方案解決了考慮相對等級的這個更一般的問題,並且我們提出了適合測量相對物件顯著性landscape成功的資料和度量。基於相對顯著性和分階段細化的分層表示,提出了一種新穎的深度學習解決方案。我們還表明,顯著物件subitizing的問題可以用同一網路來解決,而且我們的方法超越了所有考慮的指標(傳統和新提出的)的任何先前工作的效能。

arXiv:https://arxiv.org/abs/1803.05082

影象分割

[5]《Combining Multi-level Contexts of Superpixel using Convolutional Neural Networks to perform Natural Scene Labeling》

Abstract:現代深度學習演算法引發了各種影象分割方法。 然而,其中大多數涉及基於畫素的分割。 但是,超畫素提供了一定程度的上下文資訊,同時降低了計算成本。 在我們的方法中,我們已經執行了超畫素級別的語義分割,考慮3個不同層次作為語義上下文的鄰居。 此外,我們已經招募了一些集合方法,如最大投票和加權平均。 我們還使用了Dempster-Shafer不確定性理論來分析各種類別之間的混淆。 我們的方法已被證明在同一資料集上優於許多不同的現代方法。

注:厲害厲害,superpixel semantic segmentation

arXiv:https://arxiv.org/abs/1803.05200

[6]《Topology guaranteed segmentation of the human retina from OCT using convolutional neural networks》

Abstract:光學相干斷層掃描(OCT)是一種無創成像模式,可用於獲取視網膜的深度影象。因此可以通過分析這些OCT影象來量化變化的層厚度,而且已經顯示這些變化與多發性硬化症中的疾病進展相關。最近的自動視網膜層分割工具使用機器學習方法來執行畫素方式標記和圖形方法以保證圖層分層結構或拓撲結構。然而,像距離和平滑度約束等圖形引數必須通過視網膜區域和病理進行實驗指定,從而降低整個框架的靈活性和時間效率。在本文中,我們開發了級聯深度網路,以在單前饋傳播中提供拓撲正確的視網膜層分割。第一個網路(S-Net)執行按畫素標記,第二個迴歸網路(R-Net)採用拓撲不受約束的S-Net結果,並輸出每層和每個位置的層厚度。 Relu啟用被用作R-Net的最終操作,其保證了輸出層厚度的非負性。由於分割邊界位置是通過對相應的非負層厚度求和而獲得的,所以即使在邊界之間的距離可以為零的中心凹處也保證了重構邊界的層次排序(即,拓撲結構)。 R-Net使用模擬掩模進行訓練,因此可以推廣到為其他分層結構提供拓撲保證分割。這個深度網路已經達到可比較的平均絕對邊界誤差(2.82微米)到最先進的圖形方法(2.83微米)。

arXiv:https://arxiv.org/abs/1803.05120

人臉

[7]《Face-MagNet: Magnifying Feature Maps to Detect Small Faces》

Abstract:在本文中,我們介紹面部放大器網路(Face-MageNet),它是一種基於Faster-RCNN框架的人臉檢測器,可以將小尺度人臉的識別資訊流傳送給分類器,而不會出現任何跳躍或殘留連線。為了實現這個目標,Face-MagNet在區域提議網路(RPN)中部署了一套ConvTranspose(也稱為去卷積)層,並在感興趣區域(RoI)池層之前部署了另一套ConvTranspose,以便於檢測更精細的人臉。此外,我們還設計,培訓和評估其他三個精心設計的架構,這些架構代表了規模問題的常規解決方案:上下文池,跳過連線和縮放分割槽。這三個網路中的每一個都可以獲得與最先進的面部檢測器相媲美的結果。經過大量實驗,我們證明基於VGG16架構的Face-MagNet比最近提出的基於ResNet101的HR方法在WIDER資料集上的人臉檢測任務上獲得了更好的結果,並且在hard set上也獲得了與我們的其他方法SSH類似的結果。

arXiv:https://arxiv.org/abs/1803.05258

GAN

[8]《Image Colorization with Generative Adversarial Networks》

Abstract:在過去的十年中,灰度影象的彩色化和老化和/或退化影象的恢復,自動著色的過程已經被徹底研究。 由於顏色資訊分配過程中的自由度非常大,因此這個問題非常不恰當。 自動彩色化的近期發展包括在整個培訓期間包含共同主題的影象,和/或需要高度處理的資料(如語義地圖)作為輸入資料。 在我們的方法中,我們試圖使用有條件的深度卷積生成對抗網路(DCGAN)完全概括這個過程。 該網路通過公開可用的資料集進行培訓,如CIFAR-10和Places365。 比較生成模型和傳統深層神經網路的結果。

arXiv:https://arxiv.org/abs/1803.05400

其它

[9]《Deep Image Demosaicking using a Cascade of Convolutional Residual Denoising Networks》

Abstract:去馬賽克和去噪是現代數碼相機pipelines中最關鍵的步驟之一。同時,聯合影象去噪 - 去馬賽克是一種非常不適合的反演問題,其中至少有三分之二的資訊丟失,其餘的資訊被噪聲破壞。這對於獲得有意義的重建提出了巨大的挑戰,並且需要特別注意有效處理該問題。雖然最近有幾種機器學習方法被用來解決這個問題,但在這項工作中,我們提出了一種新穎的深度學習體系結構,它受到強大的經典影象正則化方法和大規模凸面優化技術的啟發。因此,與其他競爭深度學習方法相比,我們派生的網路更加透明並且有著明確的解釋。我們廣泛的實驗表明,我們的網路在噪聲和無噪資料方面都優於以前的任何方法。重建質量的這種提高歸功於我們設計網路架構的原則性方式,與當前最先進的深度網路解決方案相比,這種方法所需的可訓練引數也更少。最後,我們表明,即使在小資料集上進行訓練時,我們的網路仍具有良好的泛化能力,同時保持低引數總數。

arXiv:https://arxiv.org/abs/1803.05215

[10]《Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning》

Abstract:視覺問題回答需要影象的高階推理,這是機器系統遵循複雜指令所需的基本能力。最近,模組化網路已被證明是執行視覺推理任務的有效框架。雖然模組化網路最初設計時具有一定程度的模型透明度,但它們在複雜的視覺推理基準上的表現還很欠缺。當前最先進的方法不能提供理解推理過程的有效機制。在本文中,我們關閉了可解釋模型和最先進的視覺推理方法之間的效能差距。我們提出了一組視覺推理原語,它們在組成時表現為能夠以明確可解釋的方式執行復雜推理任務的模型。基元輸出的保真度和可解釋性使得無與倫比的能力可以診斷所得模型的優點和缺點。重要的是,我們顯示這些原始資料是高效能的,在CLEVR資料集上達到了99.1%的最高精確度。我們還表明,當提供包含新穎物件屬性的少量資料時,我們的模型能夠有效地學習廣義表示。使用CoGenT概括任務,我們顯示出比現有技術水平提高了20個百分點。

注:視覺推理VOA再次Mark

arXiv:https://arxiv.org/abs/1803.05268

[11]《EdgeStereo: A Context Integrated Residual Pyramid Network for Stereo Matching》

Abstract:最近卷積神經網路(CNN)極大地促進了立體匹配的發展。特別是那些端到端的立體方法實現最佳效能。然而,對編碼上下文資訊的關注較少,簡化了兩階段視差學習管道,並改善了視差圖中的細節。不同的是,我們專注於這些問題。首先,我們提出了一種基於一階段上下文金字塔的殘差金字塔網路(CP-RPN)進行視差估計,其中嵌入了上下文金字塔以明確地對多尺度上下文線索進行編碼。接下來,我們設計了一個名為EdgeStereo的基於CNN的多工學習網路,利用邊緣檢測任務中的中級特徵來恢復視差圖中的缺失細節。在EdgeStereo中,CP-RPN與基於雙重多工互動的建議邊緣檢測器HEDβ整合在一起。端到端EdgeStereo直接從立體對輸出邊緣地圖和視差圖,而無需任何後期處理或正則化。我們發現邊緣檢測任務和立體匹配任務可以在我們的EdgeStereo框架中互相幫助。諸如Scene Flow和KITTI 2015等立體基準的全面實驗表明,我們的方法達到了最先進的效能。

arXiv:https://arxiv.org/abs/1803.05196

[12]《LCANet: End-to-End Lipreading with Cascaded Attention-CTC》

Abstract:機器脣部讀取是一種特殊型別的自動語音識別(ASR),它通過視覺解釋包括嘴脣,臉部和舌頭在內的相關臉部區域的運動來轉錄人類言語。最近,基於深度神經網路的脣線閱讀方法顯示出巨大的潛力,並且在一些基準資料集中超過了經驗豐富的人類脣線筆的準確性。然而,脣讀仍遠未解決,現有方法對野生資料的錯誤率往往較高。在本文中,我們提出LCANet,一種基於端到端深度神經網路的脣讀系統。 LCANet使用堆疊的3D卷積神經網路(CNN),高速公路網路和雙向GRU網路對輸入視訊幀進行編碼。編碼器有效捕獲短時和長時空時資訊。更重要的是,LCANet集成了一個級聯注意-CTC解碼器來生成輸出文字。通過級聯CTC注意力,它可以部分消除隱藏的神經層中CTC的條件獨立性假設的缺陷,並且這產生顯著的效能改進以及更快的收斂。實驗結果表明,所提出的系統在GRID語料庫資料庫上實現了1.3%的CER和3.0%的WER,與最先進的方法相比,導致了12.3%的改進。

注:CNN都能用到脣讀上了,膩害膩害!

arXiv:https://arxiv.org/abs/1803.04988

[13]《Averaging Weights Leads to Wider Optima and Better Generalization》

Abstract:深度神經網路通常通過使用SGD變數優化損失函式以及衰減學習率來訓練,直到收斂。 我們表明,沿著SGD的軌跡的多個點的簡單平均,具有周期性或恆定的學習率,導致比傳統訓練更好的泛化。 我們還表明,這種隨機加權平均(SWA)程式發現比SGD更廣泛的最優化,並且近似於最近的使用單個模型的快速幾何整合(FGE)方法。 使用SWA,我們在CIFAR-10,CIFAR-100和ImageNet上與傳統的SGD培訓相比,在一系列最先進的殘留網路,PyramidNets,DenseNets和Shake-Shake網路上實現了測試精度的顯著提高。 簡而言之,SWA非常容易實現,改進了泛化,幾乎沒有計算開銷。

注:SWA???

arXiv:https://arxiv.org/abs/1803.05407

[14]《Approximate Query Matching for Image Retrieval》

Abstract:傳統影象識別涉及通過單個物件焦點(ILSVRC,AlexNet和VGG)識別縱向型影象中的關鍵物件。更近期的方法考慮密集影象識別 - 用合適的邊界框分割影象並在這些邊界框內執行影象識別(語義分割)。 Visual Genome資料集[5]試圖將這些不同的方法連線到每個子任務邊界框生成,影象識別,字幕和一項新操作(場景圖生成)的粘性資料集上。我們的重點是使用這樣的場景圖來對影象資料庫執行圖搜尋以基於搜尋標準整體檢索影象。我們開發了一種方法,在圖形資料庫(使用Neo4J)中儲存場景圖形和元資料,並基於圖形搜尋查詢執行影象的快速近似檢索。我們處理比單個物件搜尋更復雜的查詢,例如“女孩吃蛋糕”檢索包含指定關係以及變體的影象。

arXiv:https://arxiv.org/abs/1803.05401

-------我是可愛的分割線-------

若喜歡Amusi寫的文章,還可以關注CVer公眾號!

[10]《Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning》