1. 程式人生 > 其它 >【轉載】 CV往哪卷?李飛飛指出三顆「北極星」:具身智慧,視覺推理和場景理解

【轉載】 CV往哪卷?李飛飛指出三顆「北極星」:具身智慧,視覺推理和場景理解

原文地址:

https://news.cnblogs.com/n/720105/

 

新智元報道

  

編輯:LRS

 

==============================================

 

 

 

【新智元導讀】

ImageNet 見證了計算機視覺發展的輝煌歷程,在部分任務效能已超越人類的情況下,計算機視覺的未來又該如何發展?李飛飛最近發文指了三個方向:具身智慧,視覺推理和場景理解

在深度學習革命程序中,計算機視覺依託大規模資料集 ImageNet,在影象分類、目標檢測、影象生成等多個任務都表現出驚人的效能,甚至比人類的準確率還要高!

但 CV 為何能取得如此巨大的成就?未來將向何處發展?

最近,「華人 AI 女神」李飛飛在美國文理科學院的會刊 Dædalus 上發表了一篇文章,以計算機視覺中的物體識別任務為切入點,研究了 ImageNet 資料集及相關演算法的發展歷程。

 

 

 

 

文章連結:https://www.amacad.org/publication/searching-computer-vision-north-stars

 

 

文章認為技術的發展很大程度上源於對北極星(North Stars)的追求。「北極星」在這裡指的是研究人員專注於解決一個科學學科中的關鍵問題,可以激發研究熱情並取得突破性的進展。

在 ImageNet 和物體識別的成功之後,越來越多的北極星問題湧現出來。

這篇文章主要講述了 ImageNet 的簡要歷史、其相關工作以及後續進展。其目的是激發更多北極星問題相關的工作,以推動該領域乃至整個人工智慧的發展。

 

 

 

 

文章第二作者 Ranjay Krishna 是華盛頓大學艾倫電腦科學與工程學院的助理教授,2021 年從斯坦福大學博士畢業,導師為李飛飛,主要研究方向為計算機視覺和人機互動的交叉領域,利用源於社會和行為科學的框架來開發機器學習模型的表示、互動、模型、訓練正規化、資料收集 pipeline 和評估協議。

 

 

 

 

 

 

  ImageNet 的前世今生

  對大部分普通使用者來說,人工智慧是一個飛速發展的領域,當然,一切都是源於現代電腦科學的工程壯舉,尤其是近幾年,AI 的工程進展速度越來越快。

  從垃圾電子郵件的過濾到個性化的推薦系統,再到汽車裡的智慧自主剎車,系統內都是大量的工程實踐。

  工程背後的科學往往被忽視了。

 

 

 

 

  作為 AI 領域的研究人員,往往對工程和科學有著深刻的認識,會認為二者是密不可分、相輔相成。在實踐中激發新的思路和探索,隨著時間的推移,將之付諸為工程實踐。

  一旦確定了基本問題,找到了下一個北極星,你就已經處於領域的前沿了。正如愛因斯坦所說:提出一個問題往往比解決這個問題更重要。

  自 1950 年起,人工智慧領域就由各種北極星問題所驅動,當時圖靈巧妙地提出瞭如何判斷一臺計算機是否值得被稱為智慧的問題,即「圖靈測試」

  6 年後,當人工智慧的奠基人計劃舉辦達特茅斯會議時,他們設定了另一個雄心勃勃的目標,提議建造能夠「使用語言、形成抽象和概念、解決現在留給人類的各種問題,並改進自己」的機器。

 

 

 

 

  如果沒有這道指路明燈,我們可能永遠無法解決新問題。

  在人工智慧的研究中,視覺是核心,一些進化生物學家假設,動物眼睛的優先進化導致了物種的不同。

 

 

 

 

  那如何教計算機看東西呢?

  在世紀之交時,受之前大量相關工作的啟發,李飛飛及合作者提出一個物體識別的問題:計算機正確識別給定影象中出現的內容的能力

  這似乎是一個有前途的北極星問題,在 1990 年到 2000 年初的十幾年時間裡,物體識別的研究人員已經朝著這個艱鉅的目標取得了巨大的進步,但由於現實世界物體的外觀千差萬別,取得的進展十分緩慢。

  即使在一個單一的、具體的類別(如房子、狗或花)中,物體看起來也可能完全不同。例如,能夠準確將照片中的物體識別為狗的 AI 模型,無論它是德國牧羊犬、貴賓犬還是吉娃娃,無論是從正面還是側面拍攝,奔跑接球或四肢著地,或者脖子上圍著藍色頭巾,都應該能正確識別。簡而言之 ,狗相關的影象種類繁多,令人眼花繚亂,而過去教計算機識別此類物體的模型無法應對這種多樣性。

  一個主要原因是過去的模型傾向於使用手工設計的模板來捕捉影象中的特徵,模型缺乏大規模影象資料的輸入,無法應付物體的多樣性。

  這意味著,我們需要一個全新的資料集來實現三個設計目標:大規模、多樣性和高質量

 

 

 

 

 

 

 

  首先是規模,心理學家假設,類似人類的感知需要接觸上千種不同的物體。當幼兒開始學習時,他每天的生活已經開始接觸大量的影象。例如,六歲的孩子大概已經看過了三千個不同的物體,並且學到了足夠多的特徵來幫助區分三萬多個類別。

  而當時,最常用的物體識別資料集只包含 20 種物體,所以擴充套件資料集很重要,我們從網際網路蒐集了 1500 萬張影象,並將其標註出對應的物體類別。

 

 

 

 

 

 

 

  參照 WordNet,李飛飛將新的資料集命名為 ImageNet

  第二是多樣性。從網際網路上搜集的影象涵蓋了許多類別,光鳥類就有八百多種,總共包括 21841 個類別來組織這上千萬張影象。為了讓訓練後的模型更魯棒,ImageNet 中的資料包含了各種場景下的影象,例如「廚房中的德國牧羊犬」等,並且還給類別標註了上下位詞,如哈士奇包括「阿拉斯加哈士奇」和「重毛北極雪橇犬」

 

 

 

 

  第三點是質量。為了創造一個可以複製人類視力敏銳度的金標準資料集,ImageNet 只接收高解析度的影象。為了讓標籤的準確率更高,研究團隊請普林斯頓大學的本科生來標記並驗證這些標籤,後來使用了亞馬遜的眾包平臺,最終在 2007 年至 2009 年間迅速從 167 個國家和地區僱傭了大約 5 萬名標註人員來標記和驗證資料集中的物體。

  有了 ImageNet 資料,如何讓它發揮作用成了關鍵。

  ImageNet 團隊一致認為:免費開放給任何感興趣的研究人員,還設立了年度競賽來激勵相關模型的開發。

  轉折點出現在 2012 年,AlexNet 橫空出世,首次將卷積神經網路應用於物體識別,並且準確率碾壓第二名參賽者。

 

 

 

 

 

 

  雖然此前神經網路已經研究了幾十年,但正是 ImageNet 讓神經網路發揮了其本來的威力。

  一年之內,幾乎所有的 AI 論文都是關於神經網路了。隨著更多人蔘與研究,物體識別的準確率也越來越高。

  2017 年,挑戰賽完結。八年來,參賽選手將演算法正確識別率從 71.8% 提升到 97.3%,這樣的精度甚至已經超越了我們人類自己(95%)。

  學會識別物體只是學習「看」的一種形式,計算機視覺領域還有更多的任務,如目標檢測等,但它們之間都存在著某些相似之處,這也意味著經驗可以用來參考借鑑。

  從理論上來講,計算機應該可以利用到這些相似之處,這一過程也稱之為「遷移學習

  人類非常擅長遷移學習,並且遷移學習對 AI 也有極大的幫助,目前幫助計算機進行遷移學習的方法就是預訓練,起點就是用 ImageNet 資料集學習物體識別。

  但這並不是說 ImageNet 對所有計算機視覺都有用。

  一個例子是醫學成像。在概念上講,對醫學影象(如篩查腫瘤)進行分類的任務與識別手機拍攝的影象沒有本質區別,都需要視覺影象和類別標籤,也可以經過適當訓練的模型來判斷。

 

 

 

 

 

 

  但 ImageNet 資料集並不能用來篩查腫瘤,因為裡面根本沒有這個任務的相關資料。更重要的是,使用眾包平臺也基本不可行,標註醫療診斷相關的資料需要非常高的專業知識稀缺且昂貴

  計算機視覺當然也有其他應用場景,例如分析衛星影象來幫助政府評估作物產量,水位、森林砍伐和野火的變化,並跟蹤氣候變化。

  ImageNet 的使用也帶來一個問題,人們過於關注大規模資料,而忽視了單一資料的影響。例如某些「對抗樣例」通過修改單個畫素,就可以讓模型錯誤地分類影象,目前有研究人員也在致力於研究如何抵禦攻擊。

  最後,ImageNet 的廣泛影響使資料集接受了一些批評,也引起了一些創立之初沒有充分考慮的問題。

  其中最嚴重的是人物肖像的公平問題。儘管我們很早就知道要過濾掉一些諸如種族、性別歧視等公然詆譭的影象標籤,但資料集中還是存在一些微妙的問題:例如那些本質上不是貶義,但應用不當可能會引起冒犯的標籤。

  儘管這些公平問題很難完全消除,但也有一些工作致力於減輕偏差的影響。

 

 

 

 

 

 

CV 北極星在哪?

  計算機視覺的下一步朝哪發展?

  作者認為其中最具潛力的領域是具身人工智慧(embodied AI),即能夠用於導航、操作和執行指令等任務的機器人。

  機器人並不是指有頭、兩條腿走路的人形機器人,任何在空間中移動的有形智慧機器都是一種具身人工智慧的形式,無論是自動駕駛汽車、機器人吸塵器,還是工廠裡的機械臂。正如 ImageNet 旨在代表現實世界廣泛而多樣的影象一樣,具身人工智慧的研究需要解決人類任務的複雜多樣性,小到疊衣服,大到探索新城市。

 

 

 

 

 

 

 

另一顆北極星是視覺推理(visual reasoning),例如理解一個二維場景中的三維關係等。可以想象一個場景,即使是讓機器人執行一個看似非常簡單的指令,如「將杯子帶回麥片碗的左邊」也需要視覺推理。執行這樣的指令當然需要比視覺更多的東西,但視覺是一個重要的組成部分。

 

 

 

 

 

 

 

理解場景中的人,包括社會關係和人的意圖,又增加了另一個層次的複雜性,這種基本的社會智慧也是計算機視覺的一顆北極星。比如看到一個女人摟著腿上的小女孩,這兩個人很可能是母女關係;如果一個男人開啟冰箱,他可能是餓了。但目前計算機還沒有足夠的智慧來推斷這些事情

 

 

 

 

 

 

 

  計算機視覺,就像人類視覺一樣,不僅僅是感知,還需要深入的認知。毫無疑問,所有這些北極星都是巨大的挑戰,比 ImageNet 還大的挑戰。

  通過看圖片來識別狗或椅子是一回事,而思考和瀏覽無限的人和空間的世界是另一回事。

  但這是一組非常值得追求的挑戰:隨著計算機視覺智慧的展開,世界可以成為一個更好的地方。醫生和護士將擁有一雙不知疲倦的眼睛來幫助他們診斷和治療病人,汽車將更安全地執行,機器人將幫助人類勇闖災區來拯救被困者和傷員。

  而科學家們可以在更強大的智慧機器的幫助下,突破人類的盲點,發現新的物種、更好的材料,以及探索未知的領域。

 

 

 

 

 

============================================

 

 

參考資料:

  https://www.amacad.org/publication/searching-computer-vision-north-stars