1. 程式人生 > >MOT2016

MOT2016

介紹

MOT16: A Benchmark for Multi-Object Tracking

多目標跟蹤,相比MOT15:

  • 註釋框更多
  • 多目標類別
  • 多種感興趣目標的可見程度

這裡主要關注它的評價體系,MOTA和MOTP,用於posetrack評價體系中

評價指標

沒有最好的指標,選擇“正確的”評估標準很大程度上依賴於應用程式,對一種獨特的、通用的評估標準的探索仍在進行中:

  • 一方面,最好將效能總結成一個數字,以便進行直接比較。
  • 另外一方面,人們並不希望丟失某些資訊,如演算法產生的個別錯誤,這就要求提供多種效能估計,這樣會妨礙獲得一個清晰的比較

MOT16中採用兩套測量方法:

  1. Stiefelhagen提出的CLEAR度量
  2. Wu 和 Nevatia 提出的一系列跟蹤質量測量方法

跟蹤結果和目標結果匹配

要量化跟蹤器的效能,有兩個常見的前提:

  • 確定每一個假設性輸出,是真陽結果還是假陽結果。這判斷一般由一個閾值所決定,閾值可能基於距離設計或者基於相似性設計。後面有說如何設計。此外還有false negative結果,沒有檢測到的目標。除了使用一個絕對的數值來顯示假陽結果的多少,還用到一個基於每幀假陽結果多少設計的假陽率(FAP(false alarms per frame)/FPPI(false positives per image))
  • 另外一個前提是確定檢測結果和目標之間的匹配問題,一個檢測結果最多對應一個目標,一個目標最多對應一個檢測結果

對於下面的問題,我們假設每一個ground truth軌跡都有一個唯一的開始和唯一的結束點,即它不是片段化的。

注意,當前的評估過程沒有顯式地處理目標重新標識。換句話說,當一個目標離開視場然後重新出現時,它將被視為一個具有新ID的不可見目標。

MOT裡使用匈牙利演算法求最佳匹配。因為這個演算法只適合單幀圖片中進行最佳匹配,並沒有考慮到幀間的聯絡。

具體而言,給定幀t-1中,結果i和ground truth j匹配,然後在幀t中,結果i和ground truth j

的距離或者相似度小於t_d,那麼,結果i和ground truth j的匹配應該從幀t-1被傳遞到幀t 中,即使幀t中存在另外一個結果更加接近真實目標。

論文中窮列了上述四種可能出現的情況以及對應的處理方式:

  • 虛線是gt的軌跡,灰色的範圍是匹配閾值,意思是在該範圍內的檢測結果才參與匹配,範圍外的都是false positive。另外空心黑色圓是false negative,實心黑色圓是true positive,實心圓外面的顏色對應於匹配的檢測結果
  • 實線是檢測結果的軌跡,不同顏色表示不同的目標,空心的 false positive,實心的true positive

四種情況如圖所示,重點關注那個ID switch,每次發生都是不合理的,和false positive ,false negetive 一樣要在總分中被懲罰的

距離度量

使用iou度量,選擇閾值為0.5

目標外觀標註

MOT16 中只關注那些直立的,站著或者行走的,可以直接被看到的,沒有被玻璃遮擋或者鏡子反射的目標

對於除此以外的目標,評價體系選擇忽略,即既不加分也不扣分

怎麼排除這些目標:

  • 對檢測結果和帶有類別標籤的結果進行匈牙利演算法匹配
  • 和這些該忽略的類iou重疊高於0.5的檢測結果被去除,該忽略的類包括某些分散注意力的類(distractor),靜止的人,反射結果,或者在交通工具上的人。如上圖所示所有非ped標籤的類都該被忽略。
  • 最後評價時只關注,那些被標註為行人的檢測框

MOTA  -  Multiple Object Tracking Accuracy

\text{MOTA} = 1 - \frac{\sum_t(\text{FN}_t+\text{FP}_t+\text{IDSW}_t)}{\sum_t{\text{GT}_t}}

厲害了我的哥,一個指標包含了3種可能出現的問題

MOTP - Multiple Object Tracking Precision

\text{MOTP} = \frac{\sum_{t,i}d_{t,i}}{\sum_t{c_t}}

其中c_t 是幀t中的匹配數目,而d_{t,i}則是該幀中每個匹配的iou值 0.5-1

需要指出的是,MOTP是一種定位精度的度量,不要與使用的精度/回憶曲線(例如在物件檢測中)中的正向預測值或相關性相混淆。

跟蹤效果度量

跟蹤成功與否看一條gt有多長被成功跟蹤:

  • 如果80%以上稱為 mostly tracked  MT
  • 低於20%叫 mostly lost  ML
  • 其它叫 partially tracked PT