1. 程式人生 > 其它 >MovieNet 資料集詳解

MovieNet 資料集詳解

技術標籤:資料集

文章目錄

0. 前言

  • 相關資料
  • 一句話總結:基於電影的視訊理解資料集,包含人物bbox/id、場景邊界、每個場景的地點/行為標籤等。
  • 獲取:官網直接下載,沒有任何難度。
  • 一句話總結:基於電影的視訊理解資料集,包括人物bbox/id、鏡頭型別、場景的地點與行為標籤等

1. 基本情況

  • 如何拆分一步電影
    • 電影結構:frame -> shot -> thread -> scene -> movie
    • 我非常不專業的理解:
      • frame:沒啥好說的,影象幀
      • shot:鏡頭,我的理解是一個攝像機連續拍攝得到的視訊片段。
        • Shot is a series of frames that runs for an uninterrupted period of time. It is also the minimal visual unit of a movie. A movie would usually contains hundreds of shots.
      • scene:場景,我的理解是在一個地方拍攝的、由若干鏡頭組成的視訊片段。
        • Scene is a sequence of continued shots that are semantically related. Usually a scene would tell about one event in the movie. A movie would contains tens of scenes.
      • thread:這個真沒明白是啥意思。
        • Thread shows the pattern of the shot arrangement in a scene. But note that not all scenes would contain threads.
        • Take a typical dialog scene as an example. Suppose there are two persons A and B in the dialog scene, they would be alternately shown, the pattern of which can be represented as ABABAB…". So there are two threads in this dialog scene, namely A and B. To capture the hierarchical structure of a movie is important for movie understanding.
  • 提供的標籤類別
    • 人物標籤:
      • 手工標註了300多電影758k張圖片中1.3M個人物bbox
      • 標註了573電影中的人物身份標籤。對於沒有手工bbox的電影,使用SOTA person detector來檢測。為了減少工作量,只關注IMDb中該電影前10的演員。最終得到763k屬於3087個credited cast的樣本,以及364k個其他樣本。
    • 場景邊界:
      • 電影場景時間劃分。
      • 共有42k個場景。
    • 地點/行為標籤
      • 手工對每個場景標註行為和地點。
      • 每個場景對應多個place標籤。
      • 對於行為標籤,先將場景劃分為sub-clips,然後對每個sub-clip標註多個行為標籤。
      • 為了使得資訊更多樣、包含更多資訊,我們鼓勵標註者建立更多標籤,而那些對於故事理解沒有太大幫助的行為(如站立、說話)都被去掉了。最終確定了80類行為標籤和90類地點標籤。
      • 最終得到19.6K地點標籤、41.3k行為片段以及45k行為標籤。
    • Description Alignment
      • 這個還真不知道是啥意思,猜測是視訊摘要相關?
      • 請參考 官方文件
    • 影片型別(Cinematic Style)
      • 有兩個維度的資料
      • view scale:long shot, full shot, medium shot, close-up shot and extreme close-up shot
      • camera movement:static shot, pans and tilts shot, zoom in and zoom out
  • 提供的資料
    • id:即電影在IMDb中的id,還提供了TMDb ID和Douban ID。
    • Movie:電影本身,提供了1100部電影720P,長寬16:9,可能有黑邊。由於版權原因,只放出關鍵幀。相鄰幀非常類似,只有關鍵幀就夠了。為了避免版權問題,只概統16K Hz取樣頻率和512 window length的資料。
    • Trailer:預告片,即商業廣告,共有33k不同的預告片,也有關鍵幀資訊和對應的聲音特徵。
    • Subtitle,即字幕,內嵌英文字幕或YIFY上下載的。
    • Script:劇本。
    • Synopsis:劇情簡介,是觀影者寫的,從IMDb上獲取的。
    • Meta data:元資料

2. 詳情

2.1. 標籤詳解

  • 所有標籤都是json檔案,檔名為IMDb的電影id。

  • 整個標籤是一個字典,包含以下幾個key

    • imdb_id:即IMDb電影編號
    • cast:即人相關標籤,包括bbox以及對應的pid(即任務編號)
    • scene:場景資訊,包括每個場景的起始幀、起始鏡頭、地點標籤以及行為標籤
    • story:我也不知道該怎麼翻譯這個,裡面有編號、起始鏡頭、起始幀、時間、consistency(不知道是啥)、文字描述、字幕
    • cinematic_style:鏡頭分類,即每個鏡頭的scale和movement,還有預告片資訊。
  • 標籤舉例如下

{
  "imdb_id": "tt1210166",
  "cast": [
    {
      "id": "tt1210166_000001",
      "frame_idx": null,
      "resolution": [
        1280,
        694
      ],
      "shot_idx": 1,
      "img_idx": 0,
      "body": {
        "type": "detected",
        "bbox": [
          22,
          27,
          1148,
          675
        ]
      },
      "pid": "others",
      "possible_pids": [
        "others"
      ]
    },
    ...
  ],
  "scene": [
    {
      "id": "tt1210166_0000",
      "shot": [
        0,
        1
      ],
      "frame": [
        0,
        841
      ],
      "place_tag": null,
      "action_tag": null
    },
    ...
  ],
  "story": [
    {
      "id": "tt1210166_0000",
      "shot": [
        60,
        424
      ],
      "frame": [
        6257,
        44851
      ],
      "duration": [
        260.97997833333335,
        1870.6211273333333
      ],
      "consistency": 0.963081028938084,
      "description": "Oakland Athletics general manager Billy Beane is upset by his team's loss to the New York Yankees in the 2001 postseason ...",
      "subtitle": [
        {
          "shot": 60,
          "duration": [
            260.26,
            262.51225
          ],
          "sentences": [
            "You gotta give the Yankees--"
          ]
        },
        ...
      ]
    },
    ...
  ],
  "cinematic_style": {
    "movie": [
      {
        "shot": 1,
        "scale": "closeup",
        "movement": "static"
      },
      {
        "shot": 2,
        "scale": "full",
        "movement": "static"
      },
      {
        "shot": 3,
        "scale": "closeup",
        "movement": "moving"
      },
      ...
    ],
    "trailer": null
  }
}

2.2. 工具包介紹

  • 主頁在這裡,說是有四部分內容,但目前只有其中一種

    • image-20210111232653366
  • 現有工具很多,起始就是一些現有庫的時候

    • image-20210111232718604