訓練 10 億張圖片：Facebook 新 AI 模型可能給計算機視覺帶來革命

阿新 • • 發佈：2021-03-05

3月5日訊息Facebook 的研究人員推出了一種新的 AI 模型，該模型可以從網上任何未標記影象的中學習，這是一項突破，儘管該團隊的研究仍處於早期階段，但他們希望給計算機視覺領域帶來一次 “革命”。

該模型被稱為 SEER（SElf-SupERvised），被饋入了 10 億張公開可用的 Instagram 影象，這些影象未經過手動標記。但是，即使沒有通常在 AI 演算法訓練中使用的標籤和註釋，SEER 仍能夠自主地訓練資料集，不斷進行學習，並最終在諸如物件檢測之類的任務上達到最高的準確性。

▲ 圖片來自 Facebook AI

這種被稱為自監督學習（self-supervised learning）的方法在 AI 領域已經很成熟：它由可以直接從給定資訊中學習的系統組成，而不必依賴經過仔細標記的資料集來教他們如何執行諸如識別照片中的物件或翻譯文字之類的任務。

自監督式學習近來引起了很多關注，因為這意味著需要手工標記資料的工作要少很得，這對大多數研究人員而言是費時費力的工作。無需管理資料集的同時，自監督模型可以處理更大，更多樣化的資料集。

在某些領域，特別是自然語言處理中，該方法已經取得了突破。在數量越來越多的未標記文字上訓練演算法已使諸如問答、機器翻譯、自然語言推理等應用程式取得了進展。

相反，計算機視覺尚未完全進入自監督的學習革命。正如 Facebook AI Research 的軟體工程師 Priya Gopal 解釋的那樣，SEER 是該領域的首創。她告訴 ZDNet：“與現有的在 ImageNet 資料集上訓練的計算機視覺的自監督模型相比，SEER 是第一個可以隨機訓練網際網路上影象上的完全自監督的計算機視覺模型。”

ImageNet 是一個大規模資料庫，包含研究人員標記的數百萬張圖片，並向較大的計算機視覺社群開放，以促進 AI 的發展。

該專案的資料庫被 Facebook 的研究人員用作評估 SEER 效能的基準，他們發現自監督模型在諸如低空拍攝、物體檢測、分割和影象分類等任務上優於最新的監督 AI 系統。

Goyal 說：“通過僅對隨機影象進行訓練，SEER 優於現有的自監督模型。這一結果表明，我們不需要像 ImageNet 這樣的高度精選的資料集，對隨機影象的自監督學習就可以產生非常高質量的模型。”

隨著自監督學習複雜度的提高，研究人員的工作並非沒有挑戰。在文字方面，AI 模型的任務是為單詞賦予含義。但是對於影象，該演算法必須決定每個畫素如何與一個概念相對應，同時考慮到其在不同圖片中拍攝角度、檢視和形狀的差別。

換句話說，研究人員需要大量資料，並且需要一個能夠從這種複雜的資訊池中推匯出所有可能的視覺概念。

為了完成此任務，Goyal 和她的團隊從 Facebook AI 在自監督學習中的現有工作中改編了一種新演算法，稱為 SwAV，該演算法將顯示相似的影象聚集到單獨的組中。科學家還設計了卷積網路，也就是一種深度學習演算法，演算法對人腦中神經元的連線模式進行建模，根據重要性分配給影象中的不同物件。

至少可以說，藉助 Instagram 的 10 億張圖片的資料集，該系統的規模很大。Facebook 的團隊使用了具有 32GB RAM 的 V100 Nvidia GPU，並且隨著模型尺寸的增加，必須將模型放入可用的 RAM 中。但是 Goyal 解釋說，進一步的研究將對確保計算功能適應新系統很有用。

“隨著我們在越來越多的 GPU 上訓練模型，這些 GPU 之間的通訊需要快速進行。可以通過開發軟體來解決給定的記憶體和執行時間帶來的挑戰 .”她說。

儘管仍有許多工作要做，但是，在可以將 SEER 應用於現實世界的用例之前，Goyal 認為不應低估該技術的影響。她說：“藉助 SEER，我們現在可以通過大量隨機的網際網路上的影象訓練大型模型，在計算機視覺方面取得更大的進步。”

“這一突破可以實現計算機視覺的自監督學習革命，類似於我們在自然語言處理文字中所看到的。”

在 Facebook 內部，SEER 可用於各種計算機視覺任務，從自動生成影象描述到幫助識別違反政策的內容。在公司外部，該技術還可用於影象和元資料有限的領域，例如醫學成像。

Facebook 的團隊呼籲開展更多工作，以將 SEER 推進到其下一階段的開發。作為研究的一部分，該團隊開發了一種基於 PyTorch 的全能庫，用於自監督學習，稱為 VISSL，該庫是開源的，鼓勵更多的 AI 社群成員對該技術進行測試。

訓練 10 億張圖片：Facebook 新 AI 模型可能給計算機視覺帶來革命

訓練 10 億張圖片：Facebook 新 AI 模型可能給計算機視覺帶來革命

java接收多張圖片：處理前端傳過來的json格式的字串

流媒體電視服務商 Roku 擬發售 10 億美元股票，投資新業務

汽車晶片公司“芯馳科技”再獲 10 億元融資：加速研發更先進製程晶片

大手筆：大眾斥資 10 億美元加速數字化轉型和 AI 系統

晶片公司沐曦完成 10 億元融資：國家隊領投，致力於打造高效能 GPU

訊息稱英特爾砸 10 億美元俄州設新廠，積極擴大本土晶圓產能

英特爾設立 10 億美元基金：加強代工業務，推動採用顛覆性技術

訊息稱大眾簽署 5 年期 10 億歐元合同：使用高通自動駕駛晶片

CNCF TOC 委員張磊：不斷演進的雲原生給我們帶來了什麼？

阿里巴巴 CEO 張勇：希望在中國率先做到 10 億的年度購買使用者

石油制裁新出路：伊朗比特幣挖礦年收入可能超過 10 億美元

蓋茨新投資基金籌資超過 10 億美元：發力四大領域清潔能源專案

衛健委：我國超 10 億人完成新冠疫苗全程接種，本輪疫情進入掃尾階段

何小鵬：未來新能源主要玩家不會超過 10 家，每家年收入將超 3000 億美元

阿里巴巴張勇談使用者增長：財年內可實現服務 10 億國內消費者

比亞迪：子公司與戴姆勒擬分別對騰勢新能源增資 10 億元

美的集團：十年 10 億美元攻關技術，致力成為新能源汽車系統級解決方案供應商

谷歌：未來三年內向全球出版商支付 10 億美元新聞費用

谷歌與全球出版商糾紛持續：10億美元不夠，法國加入戰局

訓練 10 億張圖片：Facebook 新 AI 模型可能給計算機視覺帶來革命

相關推薦