多模態在內容理解的應用

阿新 • • 發佈：2020-10-19

2020 年機器學習趨勢：建立統一的跨媒體多模態內容理解核心

描述類任務（表示，轉換，對齊，融合）

視訊描述

1 Predicting Visual Features from Text for Image and Video Caption Retrieval：輸入原始影象，影象標題和眾多描述影象的句子，將它們對映到隱空間併合成視訊描述。
在這裡插入圖片描述 2 Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video
Captioning：輸入原始視訊和視訊的文字索引來進行視訊描述工作。
3 Multimodal Dual Attention Memory for Video Story Question Answering：這是一個 VQA 任務，把原始視訊，視訊的描述和問題輸入最終得到答案。

4 Dual-Stream Recurrent Neural Network for Video Captioning:
將原始的視訊和靜態的影象（用來描述視訊）一起輸入，得到對視訊的描述。
在這裡插入圖片描述

醫療問答

1 Ensemble of Streamlined Bilinear Visual Question Answering Models for the ImageCLEF 2019 Challenge in the Medical Domain:簡單把影象和問題輸入得到答案。
在這裡插入圖片描述 2 Multimodal Explanations: Justifying Decisions and Pointing to the Evidence：把 VQA 框架用於關於健康問題的問答。

分析類任務（表徵，融合）

視訊分類

分類框架：

Divide, Conquer and Combine: Hierarchical Feature Fusion Network with Local and Global Perspectives for Multimodal Affective Computing:
這是一個較為通用的多模態視訊分類任務網路，將特徵組合成矩陣，採用 outer-product 計算任意組合的乘積，為避免外積太長，用滑動窗對自向量求外積。
在這裡插入圖片描述 1 Towards Good Practices for Multi-modal Fusion in Large-scale Video Classification: 將視訊和代表性的音訊檔案一起輸入進行視訊分類。

2 Modeling Multimodal Clues in a Hybrid Deep Learning Framework for Video Classification: 將空間視訊、運動視訊、音訊和原視訊一起輸入，得到結果。
在這裡插入圖片描述

3 Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification:
同樣還是將影象、視訊和音訊異構資訊一起輸入，得到視訊分類的結果。

在這裡插入圖片描述

情感分類：

1 Contextual Inter-modal Attention for Multi-modal Sentiment Analysis：將文字，視訊和聲音輸入來對人的情感進行分類。
在這裡插入圖片描述 2 Multimodal Sentiment Analysis using Hierarchical Fusion with Context Modeling：將影象、標題和文字放入模型進行情感分類。

在這裡插入圖片描述

假新聞識別

1 Exploiting Multi-domain Visual Information for Fake News Detection：將影象和對影象詞頻的統計輸入來進行假新聞分類。
在這裡插入圖片描述 2 EANN: Event Adversarial Neural Networks for Multi-Modal Fake News Detection:將影象和文字輸入來對假新聞進行檢測。
3 A Deep Learning Approach for Multimodal Deception Detection：將視訊、音訊、文字和高頻詞放入模型進行假新聞識別。
在這裡插入圖片描述

影象/視訊質量評價

1 A deep learning framework for quality assessment and restoration in video endoscopy:將視訊和視訊檢測結果輸入來進行質量評價。
在這裡插入圖片描述

標題黨檢測

1 Characterizing Clickbaits on Instagram:將影象、標題和文字描述輸入模型來分類是否是標題黨。
在這裡插入圖片描述

社交網路的實體匹配

1 Multimodal Learning of Social Image Representation by Exploiting Social Relations:運用影象和相關文字註釋對個體進行分類分組。
在這裡插入圖片描述 2 From content to links: Social image embedding with deep multimodal model：跟上一篇文章類似，也是利用相關影象和文字進行社交群體分類。

在這裡插入圖片描述

多模態在內容理解的應用

描述類任務（表示，轉換，對齊，融合）

視訊描述

醫療問答

分析類任務（表徵，融合）

視訊分類

情感分類：

假新聞識別

影象/視訊質量評價

標題黨檢測

社交網路的實體匹配

多模態在內容理解的應用

ACMMM2021｜在多模態訓練中融入“知識+圖譜”：方法及電商應用實踐

[轉載]Meta AI：多模態理解研究進展與未來

多模態機器學習綜述翻譯(轉載)

論文淺嘗 - AAAI2020 | 多模態基準指導的多模態自動文摘

多模態學習方法綜述（期刊論文）

【Music】視訊配樂|多模態檢索 Content-based video–music retrieval (CBVMR) Using Soft Intra-Modal 筆記

名為機器狗 Max，騰訊正式釋出首個軟硬體全自研的多模態四足機器人

AI論文解讀丨融合視覺、語義、關係多模態資訊的文件版面分析架構VSR

上海微系統所研製出植入式瞬態可溶蠶絲蛋白儲存器：支援多模態資訊儲存加密

CVPR 2022資料集彙總｜包含目標檢測、多模態等方向

解決非模態對話方塊多次點選，重複彈出問題

vue+element 模態框內容添加回到底部，頂部

bootstrap實現巢狀模態框的例項程式碼

JavaScript實現模態對話方塊例項

IOS在SwiftUI中顯示模態檢視的例項程式碼

詳解釘釘小程式元件之自定義模態框（彈窗封裝實現）

微信小程式自定義純淨模態框（彈出框）的例項程式碼

微信小程式自定義彈出模態框禁止底部滾動功能

小程式開發之模態框元件封裝

多模態在內容理解的應用

描述類任務（表示，轉換，對齊，融合）

視訊描述

醫療問答

分析類任務（表徵，融合）

視訊分類

情感分類：

假新聞識別

影象/視訊質量評價

標題黨檢測

社交網路的實體匹配

相關推薦