1. 程式人生 > 實用技巧 >多模態在內容理解的應用

多模態在內容理解的應用

2020 年機器學習趨勢:建立統一的跨媒體多模態內容理解核心

描述類任務(表示,轉換,對齊,融合)

視訊描述

1 Predicting Visual Features from Text for Image and Video Caption Retrieval:輸入原始影象,影象標題和眾多描述影象的句子,將它們對映到隱空間併合成視訊描述。
在這裡插入圖片描述2 Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video
Captioning:輸入原始視訊和視訊的文字索引來進行視訊描述工作。
在這裡插入圖片描述3 Multimodal Dual Attention Memory for Video Story Question Answering:這是一個 VQA 任務,把原始視訊,視訊的描述和問題輸入最終得到答案。

在這裡插入圖片描述4 Dual-Stream Recurrent Neural Network for Video Captioning:
將原始的視訊和靜態的影象(用來描述視訊)一起輸入,得到對視訊的描述。
在這裡插入圖片描述

醫療問答

1 Ensemble of Streamlined Bilinear Visual Question Answering Models for the ImageCLEF 2019 Challenge in the Medical Domain:簡單把影象和問題輸入得到答案。
在這裡插入圖片描述2 Multimodal Explanations: Justifying Decisions and Pointing to the Evidence:把 VQA 框架用於關於健康問題的問答。

在這裡插入圖片描述

分析類任務(表徵,融合)

視訊分類

分類框架:

Divide, Conquer and Combine: Hierarchical Feature Fusion Network with Local and Global Perspectives for Multimodal Affective Computing:
這是一個較為通用的多模態視訊分類任務網路,將特徵組合成矩陣,採用 outer-product 計算任意組合的乘積,為避免外積太長,用滑動窗對自向量求外積。
在這裡插入圖片描述1 Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification: 將視訊和代表性的音訊檔案一起輸入進行視訊分類。

在這裡插入圖片描述2 Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification: 將空間視訊、運動視訊、音訊和原視訊一起輸入,得到結果。
在這裡插入圖片描述3 Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification:
同樣還是將影象、視訊和音訊異構資訊一起輸入,得到視訊分類的結果。

在這裡插入圖片描述

情感分類:

1 Contextual Inter-modal Attention for Multi-modal Sentiment Analysis:將文字,視訊和聲音輸入來對人的情感進行分類。
在這裡插入圖片描述2 Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling:將影象、標題和文字放入模型進行情感分類。

在這裡插入圖片描述

假新聞識別

1 Exploiting Multi-domain Visual Information for Fake News Detection:將影象和對影象詞頻的統計輸入來進行假新聞分類。
在這裡插入圖片描述2 EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection:將影象和文字輸入來對假新聞進行檢測。
在這裡插入圖片描述3 A Deep Learning Approach for Multimodal Deception Detection:將視訊、音訊、文字和高頻詞放入模型進行假新聞識別。
在這裡插入圖片描述

影象/視訊質量評價

1 A deep learning framework for quality assessment and restoration in video endoscopy:將視訊和視訊檢測結果輸入來進行質量評價。
在這裡插入圖片描述

標題黨檢測

1 Characterizing Clickbaits on Instagram:將影象、標題和文字描述輸入模型來分類是否是標題黨。
在這裡插入圖片描述

社交網路的實體匹配

1 Multimodal Learning of Social Image Representation by Exploiting Social Relations:運用影象和相關文字註釋對個體進行分類分組。
在這裡插入圖片描述2 From content to links: Social image embedding with deep multimodal model:跟上一篇文章類似,也是利用相關影象和文字進行社交群體分類。

在這裡插入圖片描述