1. 程式人生 > >VQA(Visual Question Answering)技術

VQA(Visual Question Answering)技術

這是一種涉及計算機視覺和自然語言處理的學習任務。

初識—定義:

A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output.
翻譯下就是:一個VQA系統以一張圖片和一個關於這張圖片形式自由、開放式的自然語言問題作為輸入,以生成一條自然語言答案作為輸出。簡單來說,VQA就是給定的圖片進行問答。
VQA涉及到多方面的AI技術:
細粒度識別(這位女士是白種人嗎?)
物體識別(圖中有幾個香蕉?)
行為識別(這位女士在哭嗎?)
對問題所包含文字的理解(NLP)

現實應用

最直接的就是幫助盲人和視覺受損使用者的應用。VQA系統可以在網路或者任何社交媒體上提供關於影象的資訊。另一個明顯的應用是將VQA整合到影象檢索系統中。

延伸

目前有一個大資料的作業,不良資訊檢測,因此我想對其進行延伸,應用到不良視訊檢測,希望能夠通過問答,或者看圖說話進行鑑別