1. 程式人生 > >Yann Lecun最新演講:機器怎樣進行有效學習?

Yann Lecun最新演講:機器怎樣進行有效學習?

640?wx_fmt=png&wxfrom=5&wx_lazy=1

作者:岑大師

來源:AI科技評論

本文長度為3200字,建議閱讀7分鐘

本文為你分享Yann Lecun關於利用對抗網路進行無監督學習的研究。

本文為Yann Lecun在CoRL 2017大會上做的演講的概述,所有資料來自於官方公開資源整理。

Lecun為Facebook AI研究院院長,他同時也是紐約大學的終身教授。他因著名的卷積神經網路(CNN)相關的工作而被人稱為CNN之父。在演講中,Lecun回顧了其早期利用神經網路用於機器人的研究做了一個基本的介紹,重點講解了他的成名作——卷積神經網路(CNN),並分析了阻礙人工智慧繼續前進的因素。

在他看來,現在的人工智慧系統距離真正的人工智慧相去甚遠,要想讓機器像人

或動物一樣有效學習,需要更好地就無監督學習上繼續研究,並討論了利用對抗網路進行無監督學習的重要性。

640?wxfrom=5&wx_lazy=1

Lecun的演講標題是:《機器該如何像動物和人類一樣有效學習》?

640?

Lecun先從今年9月的CCN(Cognitive Computational Neuroscience,認知計算神經科學)大會上,MIT的認知計算專家Josh Tennenbaum的一句話說起:我們現在看到的所有AI系統都不是真正的AI。這是因為,大腦的學習效率比我們目前所有的機器學習方法效率都要高:監督學習需要大量的範例,增強學習需要上百萬次試錯,這也是我們的機器人無法像貓或老鼠一樣靈活、以及無法造出擁有常識的對話系統的原因。

640?

我們可以通過強化學習訓練機器識別如桌子、凳子、夠、汽車、飛機等例項,只要我們有足夠的計算能力和訓練樣本,機器業能識別出之前未見過的東西。

640?

Lecun還比較了傳統的模式識別方法、改進的模式識別方法、深度學習的不同。

640?

從2013年到2017年,從VGG到DenseNet(這也是Facebook用於影象識別的網路結構),深度卷積神經網路變得越來越深,識別效果也變得越來越好。

640?

而在Lecun將機器學習應用於機器人的研究在2003年,當時DARPA找到Lecun,通過模仿學習進行避障的研究。2005年,Lecun將論文投給了第一屆RSS(機器人領域的頂級學術會議之一),但很不幸的被拒了,隨後Lecun將論文轉投當年的NIPS,論文被收錄發表。而這一研究的階段性成果也打動了DARPA,並催生了之後的DARPA LAGR專案(這麼說來,Lecun在機器人方面的研究天賦是不是被RSS耽誤了呢)。

640?

DARPA LAGR:一個將機器學習應用於地面機器人、基於感知的自主導航專案。

640?

640?

Lecun在機器人上使用了一個叫ComNet的網路,在當時算是非常前衛的做法。

640?

當時的識別效果,在地圖上設定終點後可自主進行路線規劃。

640?

然而,每秒只能進行一幀影象的識別,無法有效躲避突然出現的行人。

640?

若干年後的另一個研究,將視訊中的場景識別為不同種類,如道路、汽車、建築等。當時還缺乏對應的資料集,需要進行大量的標註。由於缺乏資料,這並不是卷積神經網路的強項,只是相比其他方法來說算是一個不錯的選擇而已(直到2012年ImageNet上的突破)。

640?

2012年在FPGA上跑到20幀,這也推動了之後如Mobileye和NVIDIA在無人駕駛上的研究。

640?

其他的應用,如將Mask R-CNN用於例項分割;

640?

Mask R-CNN在COCO資料集上的影象分割結果。

640?

以及姿態預估的結果;

640?

3D語義識別;

640?

用於翻譯;

640?

視覺推理中的推斷和執行(雖然Lecun懟過Jurgen,但不得不說LSTM還是很有用的嘛);

640?

諸多的用促成了FAIR的諸多開源專案(Lecun說,這裡大多數專案自己沒有參與,他只是在說別人的研究工作);

640?

展望未來,Lecun認為阻礙人工智慧繼續前進的因素在於目前我們開啟AI的方式不正確,像人或動物都無需大量的標識資料或者大量試錯;

640?

這當中的差別在於“常識”,就是通過想象來填補空白的能力,這也是某種形式的非監督學習。

640?

大多數人或動物的學習方式都是非監督學習。

640?

人類具有通過觀察形成常識的能力,例如“Josh拿起包離開了房間”,我們人類很容易理解相應的行為,但很難教機器去理解這一系列動作;

640?

從認知科學的角度,人類在嬰兒時期學習到各種概念的時間表;

640?

為什麼下需要進一步發展非監督學習?這是由於用於訓練一個大的學習機器的必要樣本量取決於我們要求它能預測多少資訊,你對機器要求越多,所需要的資料也越多。在人類大腦中有10^14個神經元觸突,而人的一生大概有10^9秒,這意味著在人類大腦這個系統中引數遠遠大於資料量,而機器想要趕上人類,必須模仿人類的非監督學習方式。

640?

三種不同學習方式的比較。

640?

然後Lecun展示了他著名的“蛋糕”理論。“真正的”強化學習好比蛋糕上的櫻桃,監督學習好比蛋糕上的糖衣,而蛋糕本身是非監督學習(預測學習)。這裡Lecun也表示,這一比喻對做強化學習的兄弟可能不太友好——“Because the cherry is not optional”。

640?

640?

在Lecun看來,真正的強化學習是很難在現實世界中應用的,一不小心出錯就會釀成大禍,還是玩玩遊戲就好了。

640?

比如說,打星際。

640?

經典的強化學習框架Dyna:“現在大腦中推演然後再行動”;

640?

以及經典的基於模型的最優控制理論。

640?

Lecun進行了概況:未來的AI革命必然是非監督學習。

640?

人工智慧系統的兩個重要組成部分:一個會學習的Agent和一個不變的目標函式。Agent從世界中感知,做實際決策,再感知,再做決策………通過這樣一個不斷迴圈迭代的過程,達到長期的期望損失最小化的目標。

640?

預測+規劃=推理,而通過最小化預測損耗,可以使Agent進一步優化決策過程。

640?

對應的迭代式的學習方式和優化如上圖所示。這種非監督學習方式也是人類諸如學開車等技能獲得的重要方式,因為人們會推演行為帶來的後果,並不斷調整達到最優。

640?

640?

基於卷積網路的PhysNet,可預測物體的掉落軌跡;

640?

Lecun的學生不久前做的另一個前向模型,可模擬飛船在星際旅行中的運動規劃。

640?

640?

關於問答與對話系統中的預測模型。Lecun稱要預測未來,你首先要記住過去,因而需要將記憶引入神經網路中,即所謂的記憶網路(Memory Network)。

640?

以及關於記憶網路的若干模型。

640?

640?

端到端的記憶網路。你之前告訴機器的東西會被儲存起來,並在之後詢問提及時被啟用,這一方式可以用於構建對話系統,而且對話系統和機器人與世界進行互動的過程有著諸多相似之處;

640?

640?

如果要設計一個好的對話系統,需要對對話有良好的預測能力。

640?

640?

在這方面的一些研究。

640?

然後Lecun提到了在非確定條件下的預測方式(非監督學習)。

640?

簡單來說就是學習一個能量函式,使得其在資料流形狀上具有較低的值,而在其他地方具有較高的值。

640?

即在希望的輸出上壓低能量值,在其他地方提高能量值。但是我們如何確定什麼地方應該提高呢?這當有八、九種方法,比如蒙特卡洛方法等。

640?

而對抗網路也是新的處理這一問題的有效手段。

640?

到具體的問題,最困難之處在於基於不確定性的預測。例如放開一支筆,讓系統回答筆半秒鐘後會導向何方,系統感知到的輸入X只是世界裡真實分佈的一個取樣,假設其由某個隱變數Z而決定,如果Z不同,預測的結果Y也會不一樣,即便是我們人類也很難預測Y在空間中的帶狀分佈。

640?

對抗學習:由生成器來決定讓哪些點的能量值變高或者變低;

640?

640?

基於能量的生成對抗網路在ImageNet上訓練的例子。

640?

640?

我們同樣還可以將生成對抗網路應用在視訊預測上。

640?

我們是否可以訓練機器像我們大腦一樣,對未來進行預測呢?通過生成對抗網路,我們已經取得了一些進展,但這個問題仍然遠遠未能解決。

640?

640?

用生成對抗網路預測未來5幀的例子總體來說不錯,但如果我們預測未來50幀的狀態就要大打折扣了。

640?

Lecun最近的研究:視訊預測的語義分割

640?

640?

該研究在如自動駕駛等領域將會有不錯的應用,例如預測0.5秒後行人或其他車輛的狀態;

640?

640?

Lecun最新的研究:錯誤編碼網路(即將釋出到Arxiv上)

640?

在一個測試集上的例子:用機器手臂戳物體並預測其位置。

Lecun稱,對未來的預測是AI系統的一個重要環節,而這一問題尚未得到解決。生成對抗網路為解決這一問題提供了一個思路,同時他也期待有其他更好的方法來解決這一問題。

0?wx_fmt=jpeg