1. 程式人生 > 其它 >對Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions的進一步總結

對Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions的進一步總結

利用來自自然語言句子描述帶有動詞和名詞短語標註的視訊,以弱監督的方式檢測視訊中的人-物互動,並檢測視訊多幀中的人和物體邊界框,這裡的弱監督指的是在訓練時不需要邊界框註釋,同時,允許以零次學習的方式檢測罕見和未見過的人-物互動。

主要創新點:引入了一種對比性的弱監督訓練損失,可以在無邊界框標註的情況下檢測人-物互動並生成人類,物體邊界框。

整個訓練步驟如下圖所示。

給定一個視訊片段和一個動詞-物件查詢,對於每一幀,首先提取它的人和物體區域特徵。人/物體特徵聚合進一個區域注意模組中,以關注與查詢更相關的區域。利用人類注意力特徵、物體注意力特徵、動詞-賓語查詢特徵和其他幀的物體區域特徵來計算弱監督對比損失。

總體訓練損失如下:

其中,為弱監督對比損失,為稀疏學習損失,為分類損失。

總體損失建立在對比損失的基礎上,對比損失旨在促使單位長度特徵的正對接近(用點積測量),負對在特徵空間中距離很遠。

其中fanchor特徵,f為正特徵,{fn}Nn=1N個負特徵。基於上式,提出了一種弱監督語言嵌入對齊損失來對齊時空區域與輸入動詞-賓語查詢,以及一種自監督時間對比損失,以鼓勵目標區域的時間連續性.