只用一張圖 + 相機走位，AI 就能腦補周圍環境：通通都是高保真效果

阿新 • • 發佈：2022-03-22

站在門口看一眼，AI 就能腦補出房間裡面長什麼樣：

是不是有線上 VR 看房那味兒了？不只是室內效果，來個遠景長鏡頭航拍也是 so easy：

而且渲染出的影象通通都是高保真效果，彷彿是用真相機拍出來的一樣。最近一段時間，用 2D 圖片合成 3D 場景的研究火了一波又一波。但是過去的許多研究，合成場景往往都侷限在一個範圍比較小的空間裡。比如此前大火的 NeRF，效果就是圍繞畫面主體展開。

這一次的新進展，則是將視角進一步延伸，更側重讓 AI 預測出遠距離的畫面。

比如給出一個房間門口，它就能合成穿過門、走過走廊後的場景了。

目前，該研究的相關論文已被 CVPR2022 接收。

輸入單張畫面和相機軌跡

讓 AI 根據一個畫面，就推測出後面的內容，這個感覺是不是和讓 AI 寫文章有點類似？實際上，研究人員這次用到的正是 NLP 領域常用的 Transformer。他們利用自迴歸 Transformer 的方法，通過輸入單個場景影象和攝像機運動軌跡，讓生成的每幀畫面與運動軌跡位置一一對應，從而合成出一個遠距離的長鏡頭效果。

整個過程可以分為兩個階段。

第一階段先預訓練了一個 VQ-GAN，可以把輸入影象對映到 token 上。VQ-GAN 是一個基於 Transformer 的影象生成模型，其最大特點就是生成的影象非常高清。在這部分，編碼器會將影象編碼為離散表示，解碼器將表示對映為高保真輸出。

第二階段，在將影象處理成 token 後，研究人員用了類似 GPT 的架構來做自迴歸。具體訓練過程中，要將輸入影象和起始相機軌跡位置編碼為特定模態的 token，同時新增一個解耦的位置輸入 P.E.。然後，token 被餵給自迴歸 Transformer 來預測影象。模型從輸入的單個影象開始推理，並通過預測前後幀來不斷增加輸入。

研究人員發現，並非每個軌跡時刻生成的幀都同樣重要。因此，他們還利用了一個區域性性約束來引導模型更專注於關鍵幀的輸出。這個區域性性約束是通過攝像機軌跡來引入的。基於兩幀畫面所對應的攝像機軌跡位置，研究人員可以定位重疊幀，並能確定下一幀在哪。

為了結合以上內容，他們利用 MLP 計算了一個“相機感知偏差”。這種方法會使得在優化時更加容易，而且對保證生成畫面的一致性上，起到了至關重要的作用。

實驗結果

本項研究在 RealEstate10K、Matterport3D 資料集上進行實驗。結果顯示，相較於不規定相機軌跡的模型，該方法生成影象的質量更好。

與離散相機軌跡的方法相比，該方法的效果也明顯更好。

作者還對模型的注意力情況進行了視覺化分析。結果顯示，運動軌跡位置附近貢獻的注意力更多。

在消融實驗上，結果顯示該方法在 Matterport3D 資料集上，相機感知偏差和解耦位置的嵌入，都對提高影象質量和幀與幀之間的一致性有所幫助。

兩位作者均是華人

Xuanchi Ren 為香港科技大學本科生。

他曾在微軟亞研院實習過，2021 年暑期與 Xiaolong Wang 教授有過合作。

Xiaolong Wang 是加州大學聖地亞哥分校助理教授。

他博士畢業於卡內基梅隆大學機器人專業。研究興趣有計算機視覺、機器學習和機器人等。特別自我監督學習、視訊理解、常識推理、強化學習和機器人技術等領域。

論文地址：

https://xrenaa.github.io/look-outside-room/

只用一張圖 + 相機走位，AI 就能腦補周圍環境：通通都是高保真效果

站在門口看一眼，AI 就能腦補出房間裡面長什麼樣：是不是有線上 VR 看房那味兒了？不只是室內效果，來個遠景長鏡頭航拍也是 so easy：而且渲染出的影象通通都是高保真效果，彷彿是用真相機拍出來的一樣。最近一段時間

放大鏡效果，用一張圖做放大鏡（用一張圖完成一套圖放大鏡效果）

效果如下： html程式碼： <div class=\"box\"> <div class=\"middle\"> <img src=\"\" alt=\"\">

一張圖告訴你，如何構建內網隱蔽通道

構建內網隱蔽通道，從而突破各種安全策略限制，實現對目標伺服器的完美控制。

轉：一張圖告訴你，如何構建內網隱蔽通道

轉載地址：https://www.cnblogs.com/xiaozi/p/13603926.html 構建內網隱蔽通道，從而突破各種安全策略限制，實現對目標伺服器的完美控制。

告別CNN？一張圖等於16x16個字，計算機視覺也用上Transformer了

編譯 |凱隱出品 | AI科技大本營（ID:rgznai100） Transformer是由谷歌於2017年提出的具有里程碑意義的模型，同時也是語言AI革命的關鍵技術。在此之前的SOTA模型都是以迴圈神經網路為基礎（RNN, LSTM等）

一張圖瞭解大資料概念，大資料應用場景總結

大資料概念大資料不僅僅是大量的資料，而且是來自不同來源，存在不同型別，代表不同含義的海量資料。大資料應該動態變化，不斷增加，而且能夠通過研究分析發現規律產生價值。大資料可以幫助我們根據對歷史

MySQL必知必會：用十一張圖講清楚，當你CRUD時BufferPool中發生了什麼！以及BufferPool的優化！

一、收到了大佬們的建議 1、篇幅偏短，建議稍微加長一點。這點說的確實挺對，有的篇幅確實比較短，針對這個提議我會考慮將相似的話題放在一篇文章中。但是這可能會導致我中斷每天更新的步調，換成隔幾天發一篇的步

重壓之下華為仍實現增長，一張圖看懂華為 2020 年年報

3 月 31 日訊息華為今日釋出 2020 年年度報告稱，2020 年實現全球銷售收入 8914 億元人民幣，同比增長 3.8%，淨利潤 646 億元人民幣，同比增長 3.2%；經營活動現金流 352 億元人民幣，同比下降 61.5%。

聯想小新系列新品 5 月 1 日零點全平臺開售，一張圖看懂

4 月 30 日訊息聯想於 4 月 22 日晚召開了 YOGA× 小新春季新品釋出會，釋出了多款小新系列膝上型電腦，分別搭載 AMD 銳龍 R5 5500U/5600U、R7 5700U、R7 5800H 等多款 AMD 處理器，此外小新 Pro 16 2021 酷睿獨顯

3799 元起，一張圖讀懂華為鴻蒙 HarmonyOS 2 平板 MatePad Pro

6 月 2 日訊息華為在“HarmonyOS 2 及華為全場景新品釋出會”上，首次釋出搭載 HarmonyOS 2 的華為旗艦平板電腦 —— 新一代華為 MatePad Pro ，同時亮相的還有第二代 HUAWEI M-Pencil 手寫筆。

DNF：全民衝擊紅11？靈魂之錘爆率大幅提升，一張圖出16個

近期最火熱的活動，可能就是“靈魂石的洗禮”，畢竟理論上可以拿到+12增幅券，當然這畢竟只是“理論”，實際上很多玩家也不當真，以為只要保底拿到+10增幅券就算成功，不過經過改版之後，發覺增幅難度更低了。

一張圖讓你看懂JVM之垃圾回收器詳解

前言感謝讀者的反饋，在?圖中更新了新生代Eden區以及兩個Survivor區的預設空間佔比的分配表示，這裡按照10等份區分8/10、1/10、1/10分別表示8:1:1的關係，會更清晰點。新生代所採用的**“標記-複製-清除”的演演算

【轉】一張圖解析FastAdmin中的表格列表的功能

一張圖解析FastAdmin中的表格列表的功能功能描述請根據圖片上的數字索引檢視對應功能說明。

一張圖解析FastAdmin中的FormBuilder表單生成器

點選檢視大圖功能描述在使用FastAdmin一鍵生成CRUD後，預設的生成的都是原生HTML的元件程式碼，會有許多不熟悉前端的小夥伴改動起來會比較費勁。其實在FastAdmin中有一個簡單的FormBuilder，但是它只能生成一些簡單

一張圖理解prototype、proto和constructor的三角關係

前面的話　　javascript裡的關係又多又亂。作用域鏈是一種單向的鏈式關係，還算簡單清晰；this機制的呼叫關係，稍微有些複雜；而關於原型，則是prototype、proto和constructor的三角關係。本文先用一張圖開宗明義，

段譽身具凌波微波，動無常則，若危若安，一次能走一級臺階或者兩級臺階，他要爬一段30級的山路，問有多少種走法？分析如何計算，然後程式設計解答。進階問題：當他輕功熟練度提升，一次最多可以走三級，那就結果有什麼變化？後來走火入魔了，不能走一級，只能走二或三級，又有什麼變化？

題目段譽身具凌波微波，動無常則，若危若安，一次能走一級臺階或者兩級臺階，他要爬一段30級的山路，問有多少種走法？分析如何計算，然後程式設計解答。

只用一張圖 + 相機走位，AI 就能腦補周圍環境：通通都是高保真效果

輸入單張畫面和相機軌跡

實驗結果

兩位作者均是華人

只用一張圖 + 相機走位，AI 就能腦補周圍環境：通通都是高保真效果

放大鏡效果，用一張圖做放大鏡（用一張圖完成一套圖放大鏡效果）

一張圖告訴你，如何構建內網隱蔽通道

轉：一張圖告訴你，如何構建內網隱蔽通道

告別CNN？一張圖等於16x16個字，計算機視覺也用上Transformer了

一張圖瞭解大資料概念，大資料應用場景總結

MySQL必知必會：用十一張圖講清楚，當你CRUD時BufferPool中發生了什麼！以及BufferPool的優化！

重壓之下華為仍實現增長，一張圖看懂華為 2020 年年報

聯想小新系列新品 5 月 1 日零點全平臺開售，一張圖看懂

3799 元起，一張圖讀懂華為鴻蒙 HarmonyOS 2 平板 MatePad Pro

DNF：全民衝擊紅11？靈魂之錘爆率大幅提升，一張圖出16個

一張圖讓你看懂JVM之垃圾回收器詳解

【轉】一張圖解析FastAdmin中的表格列表的功能

一張圖解析FastAdmin中的FormBuilder表單生成器

一張圖理解prototype、proto和constructor的三角關係

Android 一張圖理解getWidth和getMeasuredWidth

Win10 S與Win10專業版/家庭版有何區別？一張圖告訴你

一張圖助你掌握ansible

一張圖讀懂 OPPO 智慧電視 S1/R1

只用一張圖 + 相機走位，AI 就能腦補周圍環境：通通都是高保真效果

輸入單張畫面和相機軌跡

實驗結果

兩位作者均是華人

相關推薦