Mark 一些有意思的深度學習方向
阿新 • • 發佈:2019-01-08
1. VQA
Visual Question Answering,給出一張圖片,就該圖片提出任何問題?自動get到你所期望的答案。
這屬於Visual Reasoning 的範疇,學者們不滿足於傳統的影象識別、分割、Caption等工作,嘗試去挖掘更高階的機器推理能力。
來看解決思路,CNN、LSTM(RNN)、Attention Model、BOW,都是影象、文字、NLP領域的通用手法,沒什麼新詞。
參考一下MIT周博磊同學的 demo(基於BOW+IMG):
2. 單影象目標深度估計
基於單影象的深度做的比較多了,目前基於目標的檢測做的工作非常多,如何提取有效景深還是蠻重要的一個話題,目前已經有不少團隊在嘗試了。
設想基於Mask-RCNN,再新增一個分支,用來做depth。
3. 基於視訊流的分析
視訊解碼的代價太大了,如果在視訊不解碼的基礎上做分析,能解決非常大的計算量,各種嵌入式裝置上的應用,有什麼辦法能夠有效的解決這個問題,能解決伐?想想做夢能笑醒!
4. AI水軍
最近很火的一個話題,好多5毛黨要失業了,這才是剛需啊。
與之相比,擺攤安裝caffe、tensorflow啥的真是太low了。