論文翻譯：Multi-view People Tracking via Hierarchical Trajectory Composition

阿新 • • 發佈：2019-01-07

Abstract

本文提出了多視點物件跟蹤的分層組合方法。其關鍵思想是自適應地利用二維和三維的多重線索，例如地面佔有一致性，外觀相似性，運動相干性等，這些線索在追蹤行人軌跡的過程中相互補充。雖然在過去的文獻中已經廣泛地研究了特徵聯機選擇，但是如何有效地排程這些提示以用於追蹤目的仍然不清楚，特別是在遇到各種挑戰時，例如，遮擋，連詞和外觀變化。為此，我們提出了一個層次組合模型，並將多視點多目標跟蹤作為組合結構優化的一個問題。我們設定了一套組合標準，每個標準對應一個特定的提示。通過利用不同的標準來追求層次組合過程，這在圖層節點和其層次結構中的後代之間施加了約束。我們學習使用最大似然估計（MLE）標註資料的構成標準，並通過迭代貪婪追蹤演算法有效地構建分層圖。在實驗中，我們證明了我們的方法在三個公共資料集上的優越效能，其中之一是由我們新建立的，以測試多檢視多目標跟蹤中的各種挑戰。

1. Introduction

多視點多目標跟蹤在過去的文獻中引起了很多關注[22]。從多個檢視跟蹤物件本質上是一個組合優化問題。例如，人的三維軌跡可以分層分解為單個檢視的軌跡，軌跡片段和邊界框。儘管現有的追蹤器或多或少地利用了上述原理，但是他們對特定提示的有效性強加了假設，外觀相似性[1]，運動一致性[9]，稀疏性[30,50]，三維定位符合[24]等，這些並不總是正確的。實際上，不同的線索可能在物體軌跡的不同時期占主導地位，特別是對於複雜的場景。在本文中，我們感興趣的是從各種線索中自動發現物件軌跡的最佳組合層次結構，以便處理更多種類的跟蹤場景。

如圖1所示，假設我們想跟蹤突出顯示的人物並獲得完整的軌跡（e）。追蹤的最佳策略可能隨空間和時間而變化。例如，在（a）中，由於人物在特定時間段內共享相同的外觀，因此我們應用基於外觀的跟蹤器來獲得2D軌跡; 在（b）和（c）中，由於可以從兩個不同的視角完全觀察物件，所以我們可以通過測試它們的3D位置的接近度將這兩個邊界框組合成3D軌跡; 在（d）中，由於在這個檢視中被攝體完全被遮擋，所以我們考慮從被背景佔用限制的3D軌跡曲線對其位置進行取樣。
在

本論文的工作中，我們將多檢視多目標跟蹤作為一個結構優化問題描述的層次組合模型。如圖2所示，我們的目標是發現層次圖中每個物件的組合梯度。我們從無結構的軌跡，即物件邊界框開始，逐漸將它們組合成更大尺寸的軌跡，最終成為軌跡。每個軌跡實體可以在單個檢視或多個檢視中觀察到。組合過程由一組標準來指導，這些標準描述了分層結構中組成的可行性。

每個標準著眼於一個特定的提示上，實際上相當於一個簡單的跟蹤器，例如外觀跟蹤器[29,45]，幾何跟蹤器[35]，運動跟蹤器[2]，將相同檢視或不同檢視的軌跡組合成更大尺寸的軌跡。成分標準是我們的方法的核心：可行的組成可以遞迴地進行，因此標準可以被有效地利用。

為了推斷組成結構，我們放棄了基於MCMC取樣的演算法，因為它們的計算複雜度很高。我們通過漸進式組合過程來逼近層次結構。組合排程問題通過迭代貪婪追蹤演算法解決。在每一步中，我們首先“貪婪”地尋找並應用具有最大概率的構圖，然後重新計算增量部分的引數。

在實驗中，我們在一系列具有挑戰性的資料集上評估所提出的方法，結果證明優於其他最先進方法的效能。此外，我們設計了一系列比較實驗來系統地分析每個標準的有效性。

本論文的主要貢獻是雙重的。首先將多視點多目標跟蹤重構為層次結構優化問題，提出了三種基於軌跡的合成準則，共同開發不同型別的線索。其次，我們建立了一個新的資料集，以解決更多的挑戰，呈現更豐富的視覺資訊，並提供比現有資料集更多的詳細註釋。

本文的其餘部分安排如下。我們在第二部分回顧了相關工作，在第三部分介紹了我們的方法的公式，並在第四部分討論了學習和推理過程。第五部分介紹了實驗和比較，最後是第六部分的結論。

2. Related Work

我們的工作與以下四個研究分流密切相關。 多目標跟蹤在過去的幾十年中已經被廣泛研究。在文獻中，由於目標檢測[12,37,34]以及資料關聯方面的重大進展，跟蹤檢測流水線[47,20,33,41,7,8]吸引了廣泛的關注並獲得了令人印象深刻的結果[48，32，6]。具體而言，基於網路流的方法[32,6]將檢測到的邊界框按照時間順序組織成有向多個馬爾可夫鏈，並追蹤軌跡尋找路徑。 Andriyenko等人[2]提出追蹤離散空間中的物體，並使用樣條來模擬連續空間中的軌跡。我們的方法也遵循這一流程，但將邊界框視為無結構的元素。通過初步關聯來儲存區域性性，我們可以更好地探索時域軌跡的非區域性性質[23]。例如，可以將具有明顯外觀相似性的軌跡組合在一起而不考慮時間間隔。 多視點物件跟蹤通常被解決為跨攝像機的資料關聯問題。典型的解決方案包括單應約束[24,4]，地面概率佔用[14]，網路流量優化[42,6,25]，標記點過程[38]，聯合重建和跟蹤[19]，多模態網路[36 ]和多檢視SVM [49]。所有這些方法都有一定的假設，因此僅限於某些特定的場景。相反，我們感興趣的是發現最佳的組合結構，以在各種情況下獲得完整的軌跡。 分層模型在模擬各種任務方面受到熱烈的贊同。文獻[17]提出了一種隨機語法模型，並將其應用於解決影象分析問題。之後，趙等人。 [51]和劉等人。 [27]介紹了用於場景解析的生成語法模型。 Pero等人[31]進一步建立了一個生成場景語法來模擬曼哈頓結構在室內場景中的合法性。 Ross等人提出了一個區分物件檢測問題的語法[15]。 Grosse等人[16]將矩陣分解作為結構發現問題，並通過上下文無關語法模型解決。在本文中，我們的表示可以被類比為一個特殊的層次歸屬語法模型，具有類似的層次結構，作為生產規則的組合標準，以及作為概率語法的軟約束。區別在於我們的模型是完全遞迴的，沒有中間層次的語義。 組合優化在監測文獻中受到相當的關注[43]。當解空間是離散的並且結構不能被拓撲排序（例如，loopy圖）時，存在組合優化的問題。在所有的解決方案中，MCMC技術被廣泛認可。例如，Khan等人[24]在粒子濾波器跟蹤框架中整合了MCMC取樣。 Yu et al。 [46]利用單站點取樣器將前景斑點與軌跡相關聯。劉等人[28]引入了一個空間時間圖來共同解決Swendsen Wang Cut [5]提出的區域標註和物體追蹤問題。在這項工作中，雖然面臨類似的組合優化問題，但我們提出了一個非常有效的推理演算法，並且具有可接受的權衡。

6. Conclusion

本文研究了一種新的多視點多目標跟蹤方法。我們將物體軌跡表示為組合層次結構，並用概率性約束來表示物體軌跡，這些約束表徵了軌跡的幾何形狀，外觀和運動特性。通過利用多個線索並用適當的排程進行組合，我們的方法很好地處理了多視點多目標跟蹤中的難點。此外，我們將在未來探索更強大的跨軌跡關係和更好的合成演算法。

論文翻譯：Multi-view People Tracking via Hierarchical Trajectory Composition

Abstract

1. Introduction

2. Related Work

6. Conclusion

論文翻譯：Multi-view People Tracking via Hierarchical Trajectory Composition

論文翻譯：sort : SIMPLE ONLINE AND REALTIME TRACKING

論文翻譯：Deep SORT: Simple Online and Realtime Tracking with a Deep Association Metric

論文翻譯：Mastering the Game of Go without Human Knowledge (第一部分)

論文翻譯：Learning Graphical Model Parameters with Ap-proximate Marginal Inference

論文翻譯：A Tutorial on Energy-Based Learning

論文翻譯：Neural conditional random felds

影象隱寫術分析論文筆記：Deep learning for steganalysis via convolutional neural networks

論文翻譯：Development and Evaluation of Emerging Design Patterns for Ubiquitous Computing

綜述論文翻譯：A Review on Deep Learning Techniques Applied to Semantic Segmentation

論文翻譯：Speech Super Resolution Generative Adversarial Network

論文翻譯：Generalized end-to-end loss for speaker verification

論文翻譯：2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-encoders

論文翻譯：Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

論文翻譯：2020_Acoustic Echo Cancellation Challenge Datasets And Testingframework

論文翻譯：2018_Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios

論文筆記：Deep Attentive Tracking via Reciprocative Learning

Multi-View Gait Recognition Based on A Spatial-Temporal Deep Neural Network論文翻譯和理解

Multi-Task GANs for View-Specific Feature Learning in Gait Recognition論文翻譯以及理解

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

論文翻譯：Multi-view People Tracking via Hierarchical Trajectory Composition

Abstract

1. Introduction

2. Related Work

6. Conclusion

相關推薦