1. 程式人生 > 資訊 >今年 AI 論文 8 大領域突破:AI 驅動的賽博朋克手臂、程式設計神器 GitHub Copilot、特斯拉的自動駕駛等

今年 AI 論文 8 大領域突破:AI 驅動的賽博朋克手臂、程式設計神器 GitHub Copilot、特斯拉的自動駕駛等

自動駕駛、影象生成、2D 轉 3D……

2021 年,哪些 AI 論文最火?又是哪些論文最具突破性?

最近一位 ÉTS 研究生、YouTube 博主總結了今年 AI 最新突破列表,視訊、文章和程式碼一應俱全。

我們從中梳理出八大類,就跟大家一起來康康。

視訊博主看過來

從中梳理最多的,當屬一些利好視訊博主的技術了。

比如,這個 TimeLens,它可以製作慢動作視訊,最大範圍可從原有的 30 幀擴充套件成 900 幀。

再比如,這個編輯神器 VGPNN—— 單個視訊幾秒內多樣化生成。

像刪除或新增某人、改變背景、時間拉長、改變長寬比、解析度等功能在它面前,都是基本操作。

還有像在不影響背景或其他物件情況下,移動影象中的物件;使用 AI 分離真實世界中的聲音,語音、音樂和音效之類……

具體在畫質處理上,今年英特爾就用英偉達顯示卡做了畫質增強補丁。今年 6 月,這個 Demo 在全網火了一把。

為了在 GTA 上效果更真實,研究人員改變了視訊中 3 點特徵:增加汽車的光澤、改善植被的整體外觀、讓瀝青路面看起來更光滑。

對此,有網友表示,這比路徑追蹤便宜多了。

如果說肆掠的疫情讓視訊會議火了一把,那麼視訊會議軟體讓背景替換技術搬到了臺前。

谷歌研究員就提出了一種重新光照的方法 Total Relighting,來給人像做背景替換。

它能根據新新增的場景光線,重新點亮任何肖像,以此看起來更加真實。

這一方法還可進一步延伸至電影、專業視訊製作中,up 主可以用起來。

此外,除了背景替換,還有文字替換,風格還保留的那種。

今年,Facebook 提出了一種 AI 模型,它可以直接翻譯或編輯影象中的文字,並且遵照同樣的風格。

類似這樣~

DALL・E 領銜的影象生成

影象生成領域,最具突破性的當屬 DALL・E——OpenAI 在新年推出的“AI 設計師”,吳恩達點讚的那種。

簡單來說就是,提出你的文字需求,它來生成影象。從原理上看,類似於 GPT-3 在文字合成影象方向上的擴充套件版。

比如輸入“OpenAI 公司門面”,它就能給出十幾張設計圖供你選擇。

還有像根據手繪草圖來生成影象、使用隨機微分方程進行影象合成和編輯等進展。

2D 影象生成 3D 模型

這是除影象生成外,另一個 2021 AI 領域熱度極高的研究方向。

試想一下,如果只在現實生活中拍攝一張物件照片,就可建立 3D 格式將其插入視訊或者遊戲中,會有多酷。

谷歌研究院提出的 ShaRF 就可以做到,比如隨意拍的一個椅子。

英偉達也提出了類似的解決方案 GANverse3D,只需一張影象,就可建立可自定義的 3D 動畫。

還有前段時間火爆外網的假 3D 場景,也是通過一組照片渲染出來的。

以及 LASR 模型 —— 從短視訊中單拎出一個物件來,建立人類或動物的 3D 模型…… 類似的方法還有很多。

萬物皆可與 Transformer 結合

你是否想過把 CNN 與 Transformer 結合起來?

2021 年,“跨界輸出”在 AI 領域掀起潮流。

基於 CNN 效率和 Transformer 的表達能力,德國海德堡大學的研究人員提出一種高解析度影象生成的方法 ——Tl;DR。

還不只是 CNN 和 Transformer。

斯坦福和 Facebook 的研究人員提出 GANsformers—— 基於 StyleGAN2 架構中 Transformer 的注意力機制,來生成場景圖片。

應用層:試衣間、天氣預報

除此之外,還有原有模型基礎上應用層面的延伸。

就如谷歌提出了基於 StyleGAN2 架構的改進版,建立了一個 AI 線上試衣間。

只需要提供一張你的影象,就能自動試穿任何衣服。

還有像巴塞羅那大學的研究人員開發了一種基於深度學習,能從航拍影象中自動檢測漂浮的垃圾,並計算數量。

為此,他們還製作了一個 App,使用者可在海面影象中識別這些垃圾。

還有 Apple 提出應用在相簿的 ML 演算法,在 iOS 15 上自動識別私人照片中的人;DeepMind 提出了一個使用雷達深度生成模型,來更準確的預報天氣。

AI 驅動的賽博朋克手臂

明尼蘇達大學的研究人員打造了一款賽博朋克手臂 ——AI 驅動的神經介面。

據介紹,截肢者可以像尋常人一樣靈巧的控制手臂。

程式設計神器:GitHub Copilot

對於開發者而言,今年最具突破性的進展莫過於程式設計神器 ——GitHub Copilot,由 GitHub 與 openAI 聯合開發。

只需描述出你想要執行的命令,就能生成相應的程式碼。

甚至程式設計師只要寫下一段註釋,Github Copilot 就可以補全剩下的程式碼、提出改進的建議,為程式設計師省去大量查詢的時間。

特斯拉的自動駕駛

值得一提的是,這次還有特斯拉的自動駕駛入選。

在特斯拉的 AI day 上,人工智慧總監 Andrej Karpathy 展示了特斯拉如何通過 8 個攝像頭來獲取影象到道路導航的過程。

這當中包括壓縮資料、二維轉變為三維輸出等操作。

除此之外,還有像面對第三次人工智慧浪潮,研究人員對 AI 中快與慢思考;AI 偽造類似“探探”個人檔案,來探討人類會不會向右滑動;Transformer 是如何在 CV 領域取代 CNN 的。