1. 程式人生 > >Mark 一些有意思的深度學習方向

Mark 一些有意思的深度學習方向

1. VQA

       Visual Question Answering,給出一張圖片,就該圖片提出任何問題?自動get到你所期望的答案。

       這屬於Visual Reasoning 的範疇,學者們不滿足於傳統的影象識別、分割、Caption等工作,嘗試去挖掘更高階的機器推理能力。

       來看解決思路,CNN、LSTM(RNN)、Attention Model、BOW,都是影象、文字、NLP領域的通用手法,沒什麼新詞。

       

       參考一下MIT周博磊同學的 demo(基於BOW+IMG):

2. 單影象目標深度估計

       基於單影象的深度做的比較多了,目前基於目標的檢測做的工作非常多,如何提取有效景深還是蠻重要的一個話題,目前已經有不少團隊在嘗試了。

       設想基於Mask-RCNN,再新增一個分支,用來做depth。

       

3. 基於視訊流的分析

       視訊解碼的代價太大了,如果在視訊不解碼的基礎上做分析,能解決非常大的計算量,各種嵌入式裝置上的應用,有什麼辦法能夠有效的解決這個問題,能解決伐?想想做夢能笑醒!

4. AI水軍

       最近很火的一個話題,好多5毛黨要失業了,這才是剛需啊。

       與之相比,擺攤安裝caffe、tensorflow啥的真是太low了。