1. 程式人生 > 資訊 >AI 剪片新進展:“一心二用”讀劇本看影像,讓預告片有情緒

AI 剪片新進展:“一心二用”讀劇本看影像,讓預告片有情緒

本週一,愛丁堡大學的研究人員開發了一種基於人工神經網路的模型,用以自動生成電影預告片

電影製作公司釋出的預告片,通常是其宣傳新電影時採用的促銷策略中的關鍵要素。為了讓預告片的效益最大化,該短片應該簡要總結電影的情節,以吸引人的方式傳達其藝術風格和情緒意境。

到目前為止,電影預告片主要是由人類製作的。然而,最近一些電腦科學家開始探索這些宣傳片也可以由機器自動生成的可能性。

愛丁堡大學的研究人員將電影片段建模為圖形,通過無監督學習演算法來識別、生成電影預告片

該模型在 11 月 16 日發表於 arXiv 上的一篇論文中提出。

論文連結:

https://techxplore.com/news/2021-11-automatically-movie-trailers.html

一、AI 剪片,兼顧敘事結構和情感

為了自動建立預告片,研究人員構建的演算法模型需要先執行低級別的任務,如人物識別、動作識別和情緒預測,還需要執行更高級別的任務,如理解事件之間的聯絡及其因果關係,對特徵及其動作進行推斷。

考慮到任務的複雜性,演算法模型直接從電影預告片中獲取所有這些資訊將需要成千上萬個樣本,而這些樣本的處理和標註也將是一個挑戰。

因此,以前的自動預告片生成方法僅僅集中在視聽特徵上是不足為奇的。

受人工編輯預告片的創造性過程的啟發,為了更好地處理自動電影預告片生成的任務,愛丁堡大學的研究人員採用了一種自下而上的方法來生成預告片,他們將預告片分解為兩個更簡單且定義明確的子任務,即電影敘事結構的識別和對其傳達的情感的預測,他們建立的模型可以處理電影的一部分視訊和電影劇本中的文字提取

“我們利用劇本作為資訊的來源,提取關於電影中的事件、角色和場景的知識,然後利用這些知識在視訊中確定值得釋出預告片的鏡頭。”

“我們將電影建模為圖形,鏡頭作為節點,用來表示圖形之間的語義關係。”進行這項研究的三位研究人員 Pinelopi Papalamidi、Frank Keller 和 Mirella Lapata 在他們的論文中寫道。

▲ 建立圖片模型

“我們使用聯合對比訓練來學習這些鏡頭關係,通過無監督演算法模型瀏覽圖片並生成預告片。”

此外,未標註的劇本文字語料庫也比較容易獲得,可以用來對該模型進行預訓練。

二、五大步驟,兩個模型“研磨”劇本和影像

在這個演算法模型中,對兩個子任務的實現方式與傳統的預告片產生方式不同。

首先是敘事結構的識別,即檢索電影中最重要的事件。電影編劇中普遍採用的理論認為,電影中有五種關鍵事件,稱為轉折點(TPs),如下圖所示,這五個關鍵事件分別為機會、計劃改變、沒有回報、主要挫折、高潮。

▲ 電影敘事中的五個關鍵事件

第二個子任務是情緒預測,研究人員將其視為鏡頭和喚起的情緒之間的關係近似值。

研究人員按照一種非監督的基於圖形的方法來生成預告片。此外,鏡頭帶有表示它們是否是關鍵事件的標籤,並帶有表示情緒強度,如積極或消極的分數。

▲ 選取關鍵轉折點

該演算法通過瀏覽利用電影建模生成的圖形來建立預告片序列,然後由人工編輯進行稽核和修改。

關鍵事件轉折點識別和情緒預測的任務都得益於對電影內容的較低層次的理解。

事實上,該演算法可以利用現成的模組來識別字符和圖形位置、記錄動作和定位語義單元。然而,這種方法大大增加了訓練和推理過程中的預處理時間和記憶體需求,並且產生理解錯誤的問題。

因此,研究人員提出了一種對比學習機制,在這種機制中,利用只有在培訓時間才能獲得的電影劇本中的有效資訊。電影劇本可以揭示電影如何被分割成場景,電影角色基本情況,他們在和誰說話,他們在哪裡,他們在做什麼等內容,也就是電腦的“場景標題”和“動作線”可以解釋動作發生的位置、描述鏡頭看到的東西。

▲ 生成預告片

具體來說,研究人員構建了兩個獨立的神經網路模型,一個是基於劇本的文字網路,另一個是基於視訊的時間線網路,並使用對比對它們進行聯合訓練。

結合起來,這兩個神經網路可以識別電影中的關鍵時間,並呈現在預告片中。

文字網路還可以通過自我監督的學習對大量的電影劇本進行預處理,而不必收集和處理相應的電影畫面。實驗結果表明,這種對比訓練方法是有益的,可以使預告片在內容和吸引力方面得到人們的好評。

▲ 研究人員提出的神經網路模型框架

三、41 部預告片,轉折點評估更準確

研究人員通過一系列測試來評估該模型製作電影預告片的水平,結果顯示它可以比其他用於生成電影預告片的基線方法更準確地識別電影中的轉折點

此外,研究人員還使用他們的模型為 41 部不同的電影製作了預告片。然後,他們在美國資料標註眾包平臺 Amazon Mechanical Turk 招募了一些觀眾,詢問他們喜歡看的電影預告片是哪些,然後將電影原有的預告片和通過他們的模型生產的預告片進行對比,獲得觀眾對兩種預告片的評價。

有趣的是,大多數受訪者更喜歡由他們的無監督模型建立的預告片,而不是由監督模型製作的預告片。也有部分預告片獲得了較低的評價。

將電影建模為圖片並進行大範圍的計算,替代之前的單獨選擇鏡頭,有助於建立連貫的預告片。然而,同樣的模式也存在確定,這種方法本身並不能保證高質量的預告片產出。

研究人員在他們的論文中補充說:“未來,我們希望更多專注於預測電影中的細粒度情緒的方法,例如,悲傷、厭惡、恐怖、快樂。在這項工作中,由於缺乏標記資料集,我們將積極、消極情緒視為情緒的替代品。”

結語:加速預告片製作,情感資料集仍欠缺

初步實驗表明,Papalampidi、Keller 和 Lapata 建立的模型可能還不能製作出完美的預告片,對於預告片是否劇透、情緒傳遞的準確性問題還有待解決。將精細的情感知識從其他領域轉移到預告片製作領域會導致不可靠的預測。未來的工作包括新的電影情感資料集,以及基於文字和視聽線索的情感檢測模型。

但該模型最終可能會被電影製作公司用來促進和加快預告片的製作。同時,該團隊計劃繼續研究他們的技術,以進一步提高其生產的預告片的質量。