1. 程式人生 > >2017年的 計算機視覺 發展

2017年的 計算機視覺 發展

1.計算機視覺

對於計算機視覺領域來說,貢獻最大的當然是 CVPR 與 ICCV,其它如 IJCAI 等也有相關主題的獲獎論文。這些獲獎論文具體研究的方向主要有目標檢測、影象標註、影象生成、語義分割、卷積神經網路架構等方面。今年唯一以研究卷積架構為主題的獲獎論文是康奈爾與清華大學聯合完成的 Densely Connected Convolutional Networks,他們發現如果卷積神經網路在接近輸入層和輸出層的層級中包含較短的連線,那麼 CNN 就能在訓練上顯著地變得更深、更精確和擁有更高的效率。據此,他們提出了密集卷積網路(DenseNet),這種卷積神經網路以前饋的方式將每一層與其他層相連線起來。這篇論文的評價非常高,很多研究者認為 DenseNet 在 ResNet 基礎上提出了更優秀的密集型連線方式,這種連線不僅能使得特徵更加穩健,同時還能產生更快的收斂速度。雖然有學者指出 DenseNet 的記憶體佔用太大,訓練成本很高,但也有研究者測試表明在推斷時它所需要的記憶體要比 ResNet 少。以下展示了 DenseNet 的基本架構:

除了卷積架構外,語義分割或目標例項分割最有影響力之一的獲獎論文就是何凱明等研究者提出來的 Mask R-CNN,它是一種簡單、靈活和高效的通用目標分割框架。Mask R-CNN 是基於 Faster R-CNN 的擴充套件,它在用於邊界框識別的分支上添加了一個並行的分支用於預測目標的掩碼。因此這種方法不僅能夠有效地檢測影象中的目標,同時還能為每個例項生成一個高質量的分割掩碼。值得注意的是,何凱明是該最佳論文的第一作者,同時是今年最佳學生論文的作者之一,若加上 CVPR 2009、CVPR 2016 兩篇最佳論文,那麼他已有四篇獲計算機視覺頂會的最佳論文。

Mask R-CNN 框架

在計算機視覺研究主題中,今年獲獎論文討論得比較多的可能就是目標檢測。在 YOLO9000: Better, Faster, Stronger 論文中,作者提出了 YOLOv2 和 YOLO9000 檢測系統。YOLOv2 能大大改善 YOLO 模型,並且以非常高的 FPS 獲得更好的結果,而 YOLO9000 這一網路結構可以實時地檢測超過 9000 種物體分類,這主要可以歸因於 WordTree 混合了目標檢測資料集與目標識別資料集,因此通過聯合訓練能實現非常好的效果。而在 Focal Loss for Dense Object Detection 論文中,研究者提出的全新 Focal Loss 方法,它集中於稀疏、困難樣本中的訓練,避免了訓練過程中可能出現的大量負面因素。他們表明使用 Focal Loss 進行訓練的 RetinaNet 可以在目標檢測任務上達到一步檢測器的速度,同時準確性高於業內最佳的兩步檢測器。

影象生成其實也是今年獲獎論文比較關注的主題,例如蘋果公司的 Learning from Simulated and Unsupervised Images through Adversarial Training 提出了模擬加非監督學習方法在使用合成影象方面展現出了顯著的提升效果。而另一篇 Tag Disentangled Generative Adversarial Networks for Object Image Re-rendering 提出了一種條理化的標籤解糾纏的生成對抗網路(TDGAN),該 TDGAN 通過指定多個場景屬性(如視角、照明和表現等)從單張圖片重新渲染出感興趣目標的新圖片。若給定一張輸入影象,解糾纏網路會抽取解開的、可解釋性的表徵,然後這些表徵再投入到生成網路以生成圖片。