網易易盾實驗室多模態視角資訊融合技術達到國際領先水平 準確率等關鍵指標創新高
近日,網易雲易盾實驗室AI演算法研究員的一篇論文《MULTI-VIEW AUTOENCODER FOR IMAGE FEATURE LEARNING WITH STRUCTURED NONNEGATIVE LOW RANK》提出了一種對多視角多模態特徵資訊進行有效融合的自編碼器神經網路,在準確率、NMI、Purity、ARI等各項效能指標上再創新高,較當下多項國際先進的多視角多模態資訊融合技術有顯著性的領先。 當下,人工智慧技術應用範圍越來越大。以自編碼器(autoencoder)、卷積神經網路(CNN)、迴圈神經網路(RNN)、長短期記憶網路(LSTM)為代表的深度學習技術因為擁有良好的特徵學習能力,被學術界和工業界廣泛運用於影象分類、文字語義檢測的實際專案中。然而傳統的自編碼器特徵學習技術,忽視了實際資料的多視角特徵,只能針對單一的特徵進行網路訓練和特徵學習,無法融合資料多視角特徵中大量有用的結構化資訊。 易盾實驗室AI演算法研究員撰寫的論文,提出了一種新的對資料多視角特徵進行融合和特徵提取的自編碼器網路。它能在其編碼網路中,對各個視角的特徵資訊進行低秩結構化融合。網路經過訓練學習得到的新特徵具有非負性和低秩的結構性質,能夠有效降低不同視角特徵之間的噪聲,具有對噪聲的抗干擾能力和魯棒性。所設計的新型自編碼器網路通過融合不同視角特徵各自攜帶的區域性視角資訊,提高新的資料特徵的表示能力,有效地提高了資料的分類識別準確率。 需要指出的是,這種對資料多視角特徵資訊進行低秩結構化融合的自編碼器網路方案,對傳統的深度學習技術-自編碼器神經網路有了很大的創新和改進,對資料語義表示的精準度和分類識別的應用上有較大的效能提高。 看完上面幾段文字,估計很多人犯嘀咕:字都認識,結合在一起,卻有一種看天書的感覺。這裡舉一個通俗易懂的例子,形象地比喻:現行的自編碼器神經網路技術在資料特徵資訊的利用上,只能能摸出大象的腿、尾巴,不能對大象進行一個完整、全面的資訊描述,無法還原出一個真實的大象。而論文提出的新的多模態視角資訊融合技術,因為能夠對資料的多視角、多模態特徵進行綜合提取和有效融合,能把這個大象完整、客觀和真實的呈現出來。 新提出的資料特徵資訊融合技術,已經成功應用於易盾內容安全專案中,並在文字特徵處理應用方面申請了相關專利。通過提取文字內容資訊的關鍵詞、聯絡方式、詞性句法關係等多視角、多模態資訊特徵,有效地提高了有害內容的識別率,讓網易雲易盾內容安全的準確率和召回率更上一個臺階。 此技術創新相關的論文《MULTI-VIEW AUTOENCODER FOR IMAGE FEATURE LEARNING WITH STRUCTUREDNONNEGATIVE LOW RANK》於ICIP 2018 影象處理大會期間釋出,一同參加大會的公司包括微軟、谷歌、Facebook等技術巨頭。由於論文的創新性、應用價值大,該論文已被IEEE資料庫收錄。
值得一提的是,該論文的主筆為方正,他是IEEE Member(國際電氣和電子工程師協會會員)、 國際期刊 IEEE Transactions on Cybernetics和Neural Processing Letters的技術審稿評審,他來自網易易盾實驗室。網易易盾實驗室成立於2016年,隸屬於網易安全部,目前擁有數十名AI演算法專家、安全研究員、政策法規研究專員等。實驗室目前專注探索人工智慧技術在安全領域的應用,以及安全相關法規、社會責任等研究。 最後給大家送下福利:對該論文感興趣的同學,可以在這裡下載:https://ieeexplore.ieee.org/document/8451827/authors