1. 程式人生 > >騰訊優圖聯手Science釋出主題報告:計算機視覺的研發和應用

騰訊優圖聯手Science釋出主題報告:計算機視覺的研發和應用

近日,騰訊優圖與《科學》(Science)雜誌共同釋出《Seeing is believing: R&D applications of computer vision》(眼見為實:計算機視覺的研發和應用)主題報告,通過全球計算機視覺領域的專家訪談,為大眾帶來當下計算機視覺技術發展的全面解讀,也為即將到來的計算機視覺峰會拉開序幕。

人工智慧 (AI) 曾經只是一種存在於科幻領域的科技,而現在,研究實驗室已經不斷研發出了各種應用 AI 的日常產品。AI 技術的進步很大程度上得益於計算機視覺的發展。計算機視覺技術關注的是構建能夠收集和處理視覺資訊的軟體。應用計算機視覺可以識別照片中的人物、讀取 X 光片、進行工廠機器人系統的智慧升級,但它的影響範圍遠不止於此。

大多數人都對自己的視覺習以為常,殊不知要拿起叉子或接住球,我們的大腦要進行大量的運算。計算機變得足夠快速、強大和小巧來實現計算機視覺的實際應用,不過是這幾年的事情。最先進的計算機視覺技術要運用到深度學習,而深度學習是 AI 的一大領域,靈感來自於人腦。深度學習演算法使用的人工神經網路(ANN),是指能夠分析並相互傳遞資訊的互相連線的節點層,與神經元的通訊機制類似。

如果我們向神經網路展示一張自拍照,一層神經元將會識別類似於面部輪廓的粗線條;另一層神經元會關注五官之間的區域,例如眼睛到嘴巴的距離;還有其他神經元會負責觀察耳朵的形狀。藉此,該演算法可判斷出這是不是一張人物照片,甚至看出這人是誰。

「在大多數計算機視覺任務當中,神經網路都能輕而易舉地生成最佳演算法,」騰訊優圖實驗室傑出科學家賈佳亞說道。騰訊總部位於中國深圳,是網際網路服務和產品、娛樂及人工智慧的全球領導者。

像人工神經網路一樣,計算機視覺技術工程師也在試圖模仿人類視覺系統的運作機制。但是機器比人更有優勢的一處是,它不需要像人類那樣依賴可見光,還能使用感測器更清楚地看到世界。

「在人臉識別、影象分類等眾多工中,計算機視覺能比人類視覺完成的更優秀。但在其他需要推理的任務,計算機視覺還有很長的路要走。」賈佳亞表示,「人類能輕易明白物體彼此之間的關聯,我們看到一張圖就能編出一個故事。但計算機還遠不能達到這種程度的理解能力和想象力。」

隨著計算機視覺技術的不斷髮展,它將會帶來更多新的發現。計算機視覺和 AI 都處於各自發展的初始階段,還有很多東西值得探索。計算機視覺技術的進步可能會推動 AI 的迅猛發展,把科幻小說的情節全部變成現實——比如無人車、機器人管家,甚至遠距離太空旅行。

在實踐中學習:AI 的工作原理

跟大多數 AI 系統類似,計算機視覺需要學習浩如煙海的資料。研究人員查閱資料並根據其特徵仔細為資料新增標籤,這些特徵就是他們希望 AI 去理解的東西。就計算機視覺的任務而言,研究人員會收集成百上千的照片用於分析。加標籤的資料會成為範例,據此訓練 AI 進行分類或尋找規律。為了測試 AI 的學習效果,研究人員會展示新的、未加標籤的影象,測試其是否能夠正確分類。

除了要在收集、標註和籌備龐大資料的工作中投入人力外,另一個重要障礙就是執行訓練演算法需要的大量計算能力。費用低廉的線上服務,讓研究人員可以在雲端訓練演算法,而無需為強大的計算機投入數千美元,不過,要得出訓練結果仍需數小時甚至數日。

對著鏡頭微笑:影象和視訊識別

人工神經網路領域最重要的進展之一出自 ImageNet。ImageNet 收集了 1400 萬標籤影象並於 2009 年釋出。ImageNet 挑戰賽要求參賽者設計一個能夠跟人類一樣對照片進行分類的演算法,但一直沒有出現獲勝者。直到 2012 年,一個使用深度學習演算法的參賽隊伍取得了顯著優於以往嘗試的結果。

今天,人們與計算機視覺產生互動的最常見的幾種方式包括影象自動標記和拍照面部識別等,都是基於 ImageNet 獲勝的技術。這些應用有助進行網上購物視覺化搜尋、自動標註社交媒體照片等特定任務。

除了影象識別外,這項新科技也推動了照片編輯技術的發展。影象分割演算法是計算機視覺的組成部分,可以幫助機器將一張圖片分成不同的部分,例如識別背景和前景中的人物。使用者可迅速編輯照片,達到專業修圖的效果。

視覺識別能力目前也應用於視訊。計算機視覺演算法可以檢視攝像機的視訊流,並且標記重要部分,這樣人們就無需反覆回看長達數小時的視訊。瞭解視訊中人物的情緒是一項研究人員正在開展的工作,不過有些機構已經率先採用了這類技術。例如坐落在中國東部浙江省的杭州第十一中學,正在嘗試用攝像頭追蹤學生的課堂行為,這些攝像頭被稱為「慧眼」。

讓機器人擁有正常視力

將 2D 影象轉化成 3D 資料,帶來了一系列不同的挑戰以及眾多的新機遇。給機器人賦予計算機視覺就是一個正在展現出前景的領域。

機器人在 20 世紀 60 年代開始投入製造業使用,這些裝置可以提升重物,執行重複性任務,並且可以一次進行數小時的精確測量,從而輕鬆地勝過人類。

斯德哥爾摩 KTH 皇家理工學院的機器人學教授 Danica Kragic 說:「這一領域始終關注的是建造出那些可以完成人類無法完成任務的機器人。」

Kragic 表示,因為人類有 40% 的大腦致力於處理視覺資訊,如果要創造能夠模仿並參與我們世界的機器,瞭解它們在多大程度上需要視覺資訊是非常重要的。「我們人類在做任何事情時都會自然而然地使用視覺反饋,」Kragic 說。

能夠處理視覺資訊的機器可以在工廠中完成更復雜的工作,甚至進入了我們的家庭。某些技能(例如,拾取會因壓力而改變形狀的柔軟物品)對機器人來說仍然是遙不可及的。這是因為人類在觀察時,獲得的不僅僅是視覺資訊;我們還會獲得有關物體物理屬性的線索,以及與之互動所需要的物理知識。機器需要能夠收集這類資訊,才能像人類一樣毫不費力地穿行在物理世界中。

「在五官感覺當中,視覺是最重要的,因為它賦予了人類理解這個複雜世界的能力。」賈佳亞說,「同樣地,計算機視覺就是為了讓計算機能夠像人類一樣觀察環境並能跟環境互動。」

賦予機器人能夠更好地瞭解世界的感測器是該技術的下一個迭代,它可能讓機器人完成在今天尚無法實現的任務。

即將上路:自動駕駛汽車

自動駕駛汽車是 AI 開發領域中獲得資金最充裕、最受關注的領域之一,全面瞭解世界對於自動駕駛汽車 (AV) 也是至關重要的。除了攝像頭,大多數無人駕駛汽車使用鐳射雷達、雷達、GPS 和感知演算法進行導航。

「我們使用的許多演算法都來自計算機視覺,但現在它不僅僅是關於攝像頭資料,」多倫多大學副教授兼優步多倫多高階技術集團負責人 Raquel Urtasun 介紹說。「我們想給汽車裝上的,不僅僅是我們的眼睛。」

像優步這樣的公司希望到 2020 年前能實現自動駕駛汽車上路和載客。這些汽車只會在預先選定的路線上行駛,或需要有人坐在駕駛員座位上,以便在出現任何問題時能夠手動接管。這項技術最終的目標是實現真正自主,使得乘坐者除了注意路況外,還可以做其他活動。

Urtasun 表示,為了實現這一目標,需要在硬體和軟體兩方面都取得進步。在硬體方面,鐳射雷達可能花費數萬美元,這使得大規模部署成本太高;在軟體方面,工程師需要找到一種方法來使 AI 具備歸納、區分不同物體的能力。如果一個人類駕駛員在道路上看到一些出乎意料的東西(比如一條墜落的電源線),他們會知道應該繞過電線。而如果一輛自動駕駛汽車遇到訓練中沒有經歷過的事情,它可能無法安全地做出反應。

Urtasun 表示,雖然自動駕駛汽車現在尚未迎來發展的黃金期,但她對自己在改進感測器和訓練演算法上的努力能夠有效應用仍然充滿希望。Urtasun 進一步介紹,幸運的是,「這項技術能夠解決許多其他問題。」改進的鐳射雷達可以使地圖測繪和土地調查更加準確,甚至配備感測器的非自動駕駛汽車也可以幫助改善交通狀況。

特快專遞:無人機

汽車不是研究人員唯一希望能夠自動駕駛的東西:無人駕駛飛機也正在接受自動飛行的訓練。無人機研究與自動駕駛汽車研究面臨著同樣的難題。高質量的訓練資料既困難又昂貴,不同的飛行方式意味著無人機需要接受不同的新場景訓練,而且法規使得在某些領域難以進行測試。即使是曾經受過訓練,飛行過程仍然會非常困難。

「任何嘗試過控制無人機的人都知道這不是件容易的事情,」比利時研究型大學天主教魯汶大學的教授 Tinne Tuytelaars 說道。不過,與自動駕駛汽車不同,無人機犯錯的成本更低。「如果一架無人機墜毀,」Tuytelaars 聳了聳肩,「也不是件什麼大不了的事。」

無人機已經可以投入到諸如協助救災和管道檢查等的應用。有朝一日它們將會可以進行送貨並提供載客服務。像亞馬遜和波音這樣的公司已經在測試無人機,未來它們可能會像現在的郵遞員那樣投遞包裹。

在某些情況下,多架無人機可能出現在同一個空域內,並且可以比人類飛行員更好地實現彼此間飛行的協調。使它們自動飛行意味著可以降低成本,將技術帶到全世界更多人和公司的手中。

機器人醫生

除了交通工具,計算機視覺給醫療領域帶來的變化是最顯著的。AI 演算法已經可以比放射科醫生更好地從醫學影像中識別出病症,例如骨折和肺炎。

「大資料的爆發,尤其在醫療領域的爆發,意味著我們能獲得更多的資料來進行研究。」西班牙奧維耶多大學計算機學系助理教授 Beatriz Remeseiro 表示,「我們正在利用資料去解決比以往更復雜的難題。」

去年,谷歌宣佈開發出新的影象識別演算法,可用於檢測糖尿病視網膜病變的跡象,這種病變如果不及時治療會導致失明。這種演算法能媲美人類專家,可以在患者視網膜的照片中發現小動脈瘤,這種動脈瘤是病變的早期跡象。

2017 年,騰訊也釋出了一款用於醫學領域的 AI 產品——騰訊覓影,能夠通過掃描上消化道內鏡圖片篩查食管癌,對早期食管癌的識別準確率高達 90%。目前,騰訊覓影已經應用於中國 100 多家醫院,未來也將輔助診斷糖尿病視網膜病變、肺結節、宮頸癌及乳腺癌等。

其他運用 AI 技術的工具也被用來更早地發現中風,為患者提供更好的生存機會。美國食品和藥物管理局最近宣佈將簡化流程,以便幫助 AI 產品更快地獲得批准。

當然,這些工具並不會很快就替代醫生,它們起到更多是顧問的作用,而非取代從業醫師。計算機視覺可以提高工作效率,並使醫生短缺地區的人們能得到更多醫療服務。這些創新技術也正在被用來最大限度地減少對人體的侵入性危害。例如,CT 掃描比 X 射線能獲取更多資訊,但會使患者暴露在更大的輻射中。AI 則可以對 X 光片進行分析後,給醫生提供相當於 CT 掃描的資訊。

「醫學影像是通過計算機視覺可以提供更多資訊從而真正產生影響的領域,」康奈爾大學計算機科學系教授、谷歌研究所研究科學家 Ramin Zabih 表示。「醫學史已經證明,如果醫師可以獲得更多的資料,這可能意味著能更好地幫助到患者。」

遠和近:邊緣裝置和航天器

所有這些領域都令人印象深刻,計算機視覺的未來會更加光明。即將開始影響該行業的最大變化之一,就是邊緣裝置——在兩個網路的邊界控制資料流轉的硬體。大多數 AI 處理需要在大型遠端雲伺服器上完成,因為執行這些演算法的計算密集程度很高。另一方面,人們製造了邊緣裝置,從而具有足夠的處理能力能在本地完成工作。隨著像 Nvidia 和 Facebook 這樣的公司開始製造專門用於執行 AI 的晶片,邊緣裝置正在變得越來越普遍。這將可以實現更快、更安全的資料處理,並且能讓使用者通過自己的資料進行更多 AI 自定義訓練,增加個人結果的定製程度。

「它將推動更多的創新,」總部位於加利福尼亞的 Movidius 公司前執行長 Remi El-Ouazzane 表示,該公司為計算機視覺設計專用的低功耗處理器晶片。目前 Remi El-Ouazzane 也擔任英特爾 AI 產品集團營運長,這是另一家生產半導體晶片和微處理器的加州科技公司。

El-Ouazzane 表示,從智慧家居裝置和監控攝像頭到自動駕駛汽車,數十億臺裝置都可以運用 AI 技術並在邊緣裝置上工作。這還將創造能夠找到失蹤人員的技術(例如,通過掃描人群影象),或者可以在孩子睡覺前沒有刷牙的時候能夠提醒父母。

「問題不是『能不能實現』,而是『什麼時候實現』,」他說。

在邊緣裝置的微世界之外,天文學家們也對計算機視覺特別感興趣,他們從無盡太空中收集到大量資料集並進行研究。Kaggle 是一個用於預測建模和分析競賽的線上平臺,在 Kaggle 上就有一個比賽利用深度學習和計算機視覺技術讓研究人員能夠通過觀察天文影象發現更多關於支配我們宇宙的暗物質的相關資訊。

此外,還有一個致力於通過 AI 促進探索太空的研究孵化器。前沿開發實驗室 (FDL) 是美國航空航天局 (NASA) 與英特爾 AI、谷歌雲、洛克希德和 IBM 等公司共同建立的合夥機構。FDL 將天文學家和電腦科學家帶到了加利福尼亞州矽谷共同工作 8 周,解決諸如瞭解太陽耀斑、繪製月球地圖和尋找小行星等問題。根據 FDL 創始人之一 James Parr 的說法,如果沒有計算機視覺,計劃就無法成功。事實上,位於美國加州帕薩迪納的 NASA 噴氣推進實驗室 (JPL) 對於攝像技術的發明起到了至關重要的作用,該技術影響了如今的大部分計算機視覺軟體。

「計算機視覺與太空計劃之間存在共生關係,」Parr 說。「但這個議題在太空行業的討論度還不足夠。」

太空探索將同樣受到影響,因為 AI 對於前往火星以及更遠的地方至關重要。太空旅行者和地球指揮中心之間的通訊滯後意味著系統必須要能夠做出自主決定,而這些決策很多都是由視覺資料來推動的。

「隨著我們不斷向外探索,我們需要機器人和自治系統為宇航員做好準備並提供協助、建造結構、定位並提取資源,」Parr 說。「這是發現和探索過程中激動人心的時刻。」

探索計算機視覺將如何改變地球上的生活,同樣令人激動。隨著 AI 擴充套件到更多領域並發展出新功能,它可能會遇到新的技術難題。但是,當我們回顧 AI 的歷史時,給計算機提供視覺的能力可能是最重要的一項進步。擁有視力的機器將帶領我們走向更光明的未來。