MovieNet 資料集詳解
阿新 • • 發佈:2021-01-12
技術標籤:資料集
文章目錄
0. 前言
- 相關資料
- 官方資料:論文,官網,官方文件(比論文更容易理解),Github
- 釋出時間:ECCV 2020
- 釋出機構:香港中文大學
- 其他資料:參考部落格
- 一句話總結:基於電影的視訊理解資料集,包含人物bbox/id、場景邊界、每個場景的地點/行為標籤等。
- 獲取:官網直接下載,沒有任何難度。
- 一句話總結:基於電影的視訊理解資料集,包括人物bbox/id、鏡頭型別、場景的地點與行為標籤等
1. 基本情況
- 如何拆分一步電影
- 電影結構:frame -> shot -> thread -> scene -> movie
- 我非常不專業的理解:
- frame:沒啥好說的,影象幀
- shot:鏡頭,我的理解是一個攝像機連續拍攝得到的視訊片段。
- Shot is a series of frames that runs for an uninterrupted period of time. It is also the minimal visual unit of a movie. A movie would usually contains hundreds of shots.
- scene:場景,我的理解是在一個地方拍攝的、由若干鏡頭組成的視訊片段。
- Scene is a sequence of continued shots that are semantically related. Usually a scene would tell about one event in the movie. A movie would contains tens of scenes.
- thread:這個真沒明白是啥意思。
- Thread shows the pattern of the shot arrangement in a scene. But note that not all scenes would contain threads.
- Take a typical dialog scene as an example. Suppose there are two persons A and B in the dialog scene, they would be alternately shown, the pattern of which can be represented as ABABAB…". So there are two threads in this dialog scene, namely A and B. To capture the hierarchical structure of a movie is important for movie understanding.
- 提供的標籤類別
- 人物標籤:
- 手工標註了300多電影758k張圖片中1.3M個人物bbox
- 標註了573電影中的人物身份標籤。對於沒有手工bbox的電影,使用SOTA person detector來檢測。為了減少工作量,只關注IMDb中該電影前10的演員。最終得到763k屬於3087個credited cast的樣本,以及364k個其他樣本。
- 場景邊界:
- 電影場景時間劃分。
- 共有42k個場景。
- 地點/行為標籤
- 手工對每個場景標註行為和地點。
- 每個場景對應多個place標籤。
- 對於行為標籤,先將場景劃分為sub-clips,然後對每個sub-clip標註多個行為標籤。
- 為了使得資訊更多樣、包含更多資訊,我們鼓勵標註者建立更多標籤,而那些對於故事理解沒有太大幫助的行為(如站立、說話)都被去掉了。最終確定了80類行為標籤和90類地點標籤。
- 最終得到19.6K地點標籤、41.3k行為片段以及45k行為標籤。
- Description Alignment
- 這個還真不知道是啥意思,猜測是視訊摘要相關?
- 請參考 官方文件
- 影片型別(Cinematic Style)
- 有兩個維度的資料
- view scale:long shot, full shot, medium shot, close-up shot and extreme close-up shot
- camera movement:static shot, pans and tilts shot, zoom in and zoom out
- 人物標籤:
- 提供的資料
- id:即電影在IMDb中的id,還提供了TMDb ID和Douban ID。
- Movie:電影本身,提供了1100部電影720P,長寬16:9,可能有黑邊。由於版權原因,只放出關鍵幀。相鄰幀非常類似,只有關鍵幀就夠了。為了避免版權問題,只概統16K Hz取樣頻率和512 window length的資料。
- Trailer:預告片,即商業廣告,共有33k不同的預告片,也有關鍵幀資訊和對應的聲音特徵。
- Subtitle,即字幕,內嵌英文字幕或YIFY上下載的。
- Script:劇本。
- Synopsis:劇情簡介,是觀影者寫的,從IMDb上獲取的。
- Meta data:元資料
2. 詳情
2.1. 標籤詳解
-
所有標籤都是json檔案,檔名為IMDb的電影id。
-
整個標籤是一個字典,包含以下幾個key
imdb_id
:即IMDb電影編號cast
:即人相關標籤,包括bbox以及對應的pid(即任務編號)scene
:場景資訊,包括每個場景的起始幀、起始鏡頭、地點標籤以及行為標籤story
:我也不知道該怎麼翻譯這個,裡面有編號、起始鏡頭、起始幀、時間、consistency
(不知道是啥)、文字描述、字幕cinematic_style
:鏡頭分類,即每個鏡頭的scale和movement,還有預告片資訊。
-
標籤舉例如下
{
"imdb_id": "tt1210166",
"cast": [
{
"id": "tt1210166_000001",
"frame_idx": null,
"resolution": [
1280,
694
],
"shot_idx": 1,
"img_idx": 0,
"body": {
"type": "detected",
"bbox": [
22,
27,
1148,
675
]
},
"pid": "others",
"possible_pids": [
"others"
]
},
...
],
"scene": [
{
"id": "tt1210166_0000",
"shot": [
0,
1
],
"frame": [
0,
841
],
"place_tag": null,
"action_tag": null
},
...
],
"story": [
{
"id": "tt1210166_0000",
"shot": [
60,
424
],
"frame": [
6257,
44851
],
"duration": [
260.97997833333335,
1870.6211273333333
],
"consistency": 0.963081028938084,
"description": "Oakland Athletics general manager Billy Beane is upset by his team's loss to the New York Yankees in the 2001 postseason ...",
"subtitle": [
{
"shot": 60,
"duration": [
260.26,
262.51225
],
"sentences": [
"You gotta give the Yankees--"
]
},
...
]
},
...
],
"cinematic_style": {
"movie": [
{
"shot": 1,
"scale": "closeup",
"movement": "static"
},
{
"shot": 2,
"scale": "full",
"movement": "static"
},
{
"shot": 3,
"scale": "closeup",
"movement": "moving"
},
...
],
"trailer": null
}
}
2.2. 工具包介紹
-
主頁在這裡,說是有四部分內容,但目前只有其中一種
-
現有工具很多,起始就是一些現有庫的時候