1. 程式人生 > 其它 >《Video Abnormal Event Detection by Learning to Complete Visual Cloze Tests》論文筆記

《Video Abnormal Event Detection by Learning to Complete Visual Cloze Tests》論文筆記

1. 摘要

  儘管深度神經網路(DNNs)在視訊異常檢測(VAD)方面取得了很大的進展,但現有的解決方案通常存在兩個問題:

  (1) 視訊中事件的定位不能既準確又全面

  (2) 對語義和時間上下文的研究不足

  為了解決這些問題,我們採用了教育中普遍存在的cloze test,並提出一種名為"visual cloze completion(VCC)"的方法來進行異常檢測。具體來說,VCC首先定位每個video,並將其壯壯到一個時空立方體(STC)中。為了實現精確、綜合的定位,外觀和運動被作用互補的線索來標記與每個事件相關的物體區域。對於每個標記區域,其歸一化序列補丁是由當前幀和相鄰幀提取出的,並將其堆疊到一個STC中。將STC中的每個補丁和補丁序列分別與視覺上的"word"和"sequence"進行比較,我們故意刪除某個單詞(patch),以產生一個VCT。然後,我們通過訓練DNNs來完成VCT,通過視訊語義來推斷被擦除的補丁及其光流。同時,VCC充分利用時間上下文,在時間上下文中交替刪除每個補丁,並建立多個VCT。此外,我們提出了本地級、事件級、模型級和決策級的解決方案來增強VCC,這可以進一步探索VCC的潛力,併產生顯著的效能以提高受益。大量的實驗證明VCC在異常檢測中效能較好。

2. 介紹

  異常行為檢測(VAD)旨在自動檢測出監控視訊中的異常事件。對市政管理,交通監控,應激反應等各種安全關鍵場景有著巨大的潛在價值,是學術界和工業界的熱門課題。一般情況下,VAD是指檢測到偏離正常生活iguana的可疑視訊事件,經過多次嘗試,VAD仍然是一個具有挑戰性的任務。其主要歸因於異常事件的三大特徵:

  • 稀缺:由於異常事件相比正常事件發生的概率低得多,通常很難收集到足夠的異常事件資料
  • 含糊不清:異常事件是指所有與正常觀察結果不同的時間,因此無法列舉所有潛在的異常事件進行訓練
  • 不可預測性:預測即將發生的異常事件的確切形式是不切實際的。

  由於上述特點,對異常事件的直接建模是不切實際的。因此VAD通常遵循單分類的設定:

  • 在訓練階段,異常事件被認為是嚴格未知的,而只收集正常資料。(通常是高可訪問性的)。這些正常資料大致用一個公共標籤進行標註,即正常事件中的子類不被區分,所有它們都被標記為正/正常。然後用粗略標記的正態資料建立一個正態性模型。
  • 在推理階段,不符合該正態性模型的視訊事件將被視為異常事件。由於異常和正常子類都沒有標籤,VAD通常被認為是一種標籤很少學習的半監督任務,而強大的監督學習並不能直接適用於VAD。相反,它通常通過一些無監督或自我監督的方法來解決。

  在文獻中,VAD解決方案可以分為經典的VAD方法和最近基於DNN的VAD方法。經典的VAD依賴於手工製作的描述符從視訊事件中提取軌跡或紋理等低階特徵,然後將特徵輸入VAD的經典異常檢測模型

在學術界和工業界是一個很有吸引力的課題。相比之下,基於DNN的VAD受到了DNN在大型視覺任務[27]中的成功的啟發。它不僅避免了複雜的特性工程,而且實現了優於經典VAD的效能。儘管基於DNN的VAD已經取得了顯著的成功,並在最近的研究中發揮了主導作用,它仍然面臨著兩個突出的問題:

  • 雖然VAD的目標是檢測異常視訊事件,但現有的基於DNN的VAD方法實際上無法實現視訊事件的精確和全面定位。早期VAD工作的標準做法是通過具有一定過濾規則[51,66]的多尺度滑動視窗提取視訊事件,不能正確定位前景物件,產生明顯不精確的定位。由於dnn可以處理高解析度的原始視訊,許多最近的方法,如[32,42,68],只是通過每幀學習而忽略了事件本地化。然而,這種方法被發現容易遇到幾個問題,例如由於前景深度和前景-背景不平衡[30,79]而引起的尺度變化。很少有人工作,[19,21]也注意到這樣的問題,並利用在通用影象資料集上預先訓練的物件檢測器。它提高了精度,但又引發了另一個致命的“封閉世界”問題:預先訓練好的探測器無法識別新的前景物體,從而導致了非全面的定位。更重要的是,由於VAD的性質,許多異常事件的主題本質上是新穎的。因此,對視訊事件的不理想定位往往會降低後期的學習過程。
  • 由於視訊事件本質上是一個高階的時間概念,現有的基於DNN的VAD方法通常不能充分利用該活動的視訊語義和時間上下文,如下圖,基於DNN的VAD遵循兩種學習正規化(重建或框架預測),但兩者都有自己的問題。
    • 基於重建的方法重建正常事件,並將重建的不好的事件視為異常事件。然而簡單的重建將導致DNN只記憶low-level的特徵,而不是記憶重要的語義,而DNNs的大容量往往使得異常事件都能重建。
    • 相比之下,基於幀預測的方法旨在從之前的幀中預測一個正常視訊幀,而預測效果較差的幀被認為異常幀。預測可以通過簡單地記憶低水平的細節來避免減少訓練損失。然而,它通常只通過單幀的預測對每個視訊幀進行評分,而具有異常事件有價值線索的時間背景則不參與預測過程。因此,這兩種學習正規化都不是基於DNN的VAD的一個足以讓人滿意的解決方案。

  與最近許多專注於搜尋更好的DNN架構以進行重建或框架預測的努力不同,我們受到了語言研究中流行的凝塊測試的啟發,並提出了一種新的範例,稱為視覺凝塊完成(VCC)。如圖1所示,VCC的核心思想是訓練DNNs以完成一些列視覺阻塞測試(visual cloze test-VCTs),其主要包含兩個步驟:

  • 提取視訊事件以構建VCTs,為了精確而全面地提取視訊事件,我們利用外觀和運動作為互補的資訊定位與每個視訊事件相關聯的前景物件區域。從每個定位的區域中,從當前幀和時間上相鄰的幀中提取一個歸一化的補丁序列,然後堆疊成一個時空立方體(STC)來封裝視訊事件。將STC中的每一個"patch"與一個"word"進行比較,我們可以將STC的整個補丁序列看成是一個描述視訊事件的"sequence",通過這種方法,可以通過刪除sequence(STC)中的某個"word"來構造一個VTC。
  • 學習完成VCTs。具體來說,DNNs通過推斷被擦除的patch來回答VCT,這需要DNNs處理視訊語義(如高階部分)而不僅僅是低階的細節。同時,VCC還配備了VCT型別整合和模態整合兩種整合策略:
    • VCT型別整合使VCC能充分利用視訊事件的時間上下文。它通過交替刪除STC中的每個補丁來建立多種型別的VCT以完成。通過這種方式,必須考慮視頻事件的時間上下文中的每個補丁,然後將使用由一個視訊事件構建的所有可能的VCT來計算異常分數。
    • 模態整合需要DNN來推斷被擦除的patch和光流,其包含了豐富的運動語義。如外觀-運動相對應。通過這種方法,所提出的VCC引數能夠有效地處理上述兩個問題,以獲得更好的VAD效能。

  本文提出了【71】的初步版本,與其相比,我們主要從以下幾個方面擴充套件了原創工作:

  • 定位水平上,我們利用估計的光流,而不是【71】使用的時間梯度,作為定位異常視訊事件的運動線索。光流使定位結果對噪聲具有魯棒性,從而減少人為和被誤解的視訊事件。
  • 視訊事件層面上,我們設計了一種空間區域性化的策略,旨在緩解前景深度引起的尺度變化問題。它將視訊分為幾個不重疊的空間區域。從每個區塊中提取的視訊事件分別進行建模,這使得DNN可以處理具有可比規模的視訊事件。
  • 模型層面上,我們設計了一個名為時空UNet(ST-UNet)的新的DNN體系來執行VCC。與【71】中使用的標準UNet相比,ST-UNet合成了一個迴圈網路結構,在STC中積累時間上下文資訊,並生成高水平的特徵圖,這有助於所提出的VCC正規化學習更豐富的視訊語義。
  • 決策層面上,我們進一步設計了一個混合分數指標和分數整改策略,證明了這是一種簡單但高效的績效提高策略。
  • 實證評價層面上,我們在各種基準資料集上進行了更廣泛的實驗,以證明VCC的有效性,並提供了更深入的討論和分析。綜上所述我們的主要貢獻如下:
    • 我們首先明確闡述精確和全面的視訊事件定位的必要性,並且我們提出利用外觀和運動作為視訊事件提取的互補資訊,克服了"closed-world"的問題,為VAD奠定了堅實的基礎
    • 我們首次提出通過構建和完成VCTs來進行異常檢測,這為重建或框架預測正規化提供了一個很有前途的替代方案。
    • 我們提出將VCT分別裝備VCT型別整合和模態整合策,以充分利用視訊事件中的時間上下文和運動資訊
    • 我們進一步提出了本地化級、事件級、模型級和決策級的解決方案來進一步增強VCC,這使得我們能夠充分利用VCC的潛力,以獲得明顯的效能增益。

 3. Basic VCC

  在本節中,我們經介紹所提出的VAD正規化的基本框架:Visual cloze completion(VCC)。基本VCC由兩個基本部分組成:視訊事件提取和視覺凝塊(visual cloze completion)。每個部分的動機和細節將被介紹:

3.1 視訊事件提取

3.1.1 Overview

  視訊事件的適當表示是良好的VAD效能的基礎。為此,我們只是簡單地建設一個視訊事件應該包括一個物件(即前景物件)及其在一個時間間隔內的活動。因此,一個自然地解決方案是使用V表示的時空立方體來包圍一個視訊事件。為了建立一個STC,視訊框上的空間區域被標記為感興趣區域(ROI),其應該使用一個邊界框標記。使用該ROI的位置b,一個帶有D塊patches的補丁序列(p1,p2,...,pd)是從當前幀和其相鄰(D-1)幀提取出來進行該物件描述的。由於DNNs通常需要固定大小的輸入,我們將這些補丁的大小調整為(hxw),並將其堆疊為新的(hxwxd)patches:(p1', p2',...,pd'),在本文中,D通常被設定為一個小值5或10來表示一個小區間,這便於我們假設視訊事件的主題在時間間隔內安全地停留在ROI中。

  

  

3.1.2 Motivation