1. 程式人生 > >如何區分針對視訊的分類,場景識別,動作識別三個概念?

如何區分針對視訊的分類,場景識別,動作識別三個概念?

如題,比如對於鬥_毆、爆_炸和槍_擊三類視訊,從深度學習學術角度講,是純粹的視訊分類問題?還是場景抑或行為識別問題?看論文的話主要的搜尋關鍵詞應當是什麼?

overlap很嚴重。而且要看你對動作如何定義。

我平時主要搜Action Recognition。視訊分類和動作識別是有區別的,動作識別一般帶BoundingBox,把動作的主體標出。但像UCF101這樣的資料集,因為視訊中本身沒有太多別的干擾因素,所以視訊分類和動作識別差別不大了。最近google、mit都開源了這方面的資料集,期待能有ImageNet對影象分類的推動作用。

這取決於動作怎麼定義。最抽象的定義是,開門跟開啟盒子定義成一個類別,都是開的概念。