流體標註:機器學習助力探索性介面研發,大幅提升影象標註速度
文 / 機器感知研究員 Jasper Uijlings 和 Vittorio Ferrari
對於基於深度學習的現代計算機視覺模型(例如由 TensorFlow Object Detection API 實現的模型)而言,其效能取決於能否使用日益擴大的標註訓練資料集(例如 Open Images)開展訓練。然而,對優質訓練資料的獲取正迅速成為制約計算機視覺發展的主要瓶頸。對於在自動駕駛、機器人和影象搜尋等應用中執行的逐畫素預測任務(例如語義分割)而言,這一點體現得尤為明顯。事實上,傳統的手動標註工具需要標註者仔細點選物體的邊界,以此勾勒出影象中的每個物體,這個過程枯燥乏味:標註 COCO+Stuff 資料集中的一個影象需時 19 分鐘,而標註整個資料集則需花費 53000 多個小時!
COCO 資料集的影象示例(左)及其逐畫素語義標註結果(右)。影象來源:Florida Memory,原始影象
在 “《流體標註:用於完整影象標註的人機協作介面》(Fluid Annotation: A Human-Machine Collaboration Interface for Full Image Annotation)” 一文中,我們探討了一種以機器學習為技術支援的介面,以標註類別標籤並在影象中勾勒每個物體的輪廓和背景區域,此舉可將資料集的標註速度提升 3 倍。此論文將在 2018 年 ACM 多媒體會議的 “勇敢新理念 (Brave New Ideas)” 環節展示。
流體標註是從某個強大語義分割模型的輸出開始,而人類標註者可以使用自然使用者介面,並通過機器輔助編輯操作來修改此模型。標註者可通過我們的介面選擇要修正的內容和修正順序,進而以高效的方式集中精力去攻克機器尚未了解的方面。
對 COCO 資料集的影象應用流體標註介面的視覺化效果。影象來源:gamene,原始影象
更確切地說,在標註影象之前,我們首先會通過一個預訓練的語義分割模型 (Mask-RCNN) 來處理影象。這大約會生成 1000 個影象片段,且每個片段都帶有相應的類別標籤和置信度分數。我們使用置信度最高的片段初始化要向標註者呈現的標籤。然後,標註者就可以:(1) 從機器生成的最終候選名單中選擇標籤,以更改現有片段的標籤。(2) 新增片段以彌補缺失的物體。機器會識別出最有可能預先生成的片段,而標註者可以滾動檢視,並選擇最佳片段。(3) 移除現有片段。(4) 調整重疊片段的深淺順序。如要進一步瞭解此介面,請試用演示版(僅限桌面裝置)。
使用傳統手動標註工具(中間列)和流體標註(右列)對三張 COCO 資料集影象進行標註的效果比較。雖然使用手動標註工具標註出的物體邊界通常更為精確,但造成標註差異的首要原因在於人類標註者往往對於物體所屬的確切類別存有分歧。影象來源:sneaka,原始影象(上);Dan Hurt,原始影象(中);Melodie Mesiano,原始影象(下)
流體標註標誌著我們朝著更加輕鬆快速的影象標註之路邁出了探索性的第一步。在未來的研究中,我們將致力於改進對物體邊界的標註,利用更多機器智慧以提升介面速度,最終實現介面擴充套件,使之能夠處理之前未曾見過的類別,滿足其對於高效資料收集的迫切需求。
致謝
此項研究是與 Misha Andriluka 協作完成。特別感謝 Christine Sugrue 在建立流體標註演示版時所做的努力。我們還要感謝 Anna Ukhanova 和 Damien Henry 提供的寶貴意見。
更多 AI 相關閱讀: