1. 程式人生 > >談談黎曼流形與視覺距離錯覺問題

談談黎曼流形與視覺距離錯覺問題

轉自:https://baijiahao.baidu.com/s?id=1612647738961091671&wfr=spider&for=pc

新智元 AI World 2018 世界人工智慧峰會全程回顧新智元於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會,邀請機器學習教父、CMU教授 Tom Mitchell,邁克思·泰格馬克,周志華,陶大程,陳怡然等AI領袖一起關注機器智慧與人類命運。愛奇藝上午:https://www.iqiyi.com/v_19rr54cusk.html下午:https://www.iqiyi.com/v_19rr54hels.html新浪:http://video.sina.com.cn/l/p/1724373.html新智元推薦 來源:CAA混合智慧專委會作者:張軍平,復旦大學計算機科學技術學院教授

【新智元導讀】今年中秋節這天,年近九十的數學家邁克爾·阿蒂亞貼出了自己證明黎曼猜想的論文,引發熱烈討論。復旦大學計算機科學技術學院教授張軍平的這篇文章內容與黎曼猜想無關,而是想探討一下黎曼主攻的幾何學與人工智慧的關係,討論視覺中的距離錯覺問題。

01:37

震撼!AI WORLD 2018世界人工智慧峰會開場視訊

 

這兩天朋友圈在瘋傳黎曼猜想被破解的訊息,2018年9月24日中秋節這天,官科、拿過菲爾茲獎和阿貝爾獎,但已年近90的數學家邁克爾·阿蒂亞貼出了其證明。

 

因為黎曼猜想是一百多年前數學家希爾伯特列出的23個數學最難問題之一,也是現今克雷數學研究所懸賞的世界七大數學難題之一;因為可能揭示素數的分佈規律,也因為可能影響現有密碼學的研究,大家都很亢奮。不過從眾多評論來看,這個嘗試可能不得不遺憾地說不是太成功。但考慮到阿蒂亞年事已高,估計沒誰敢當面懟他。儘管如此,老先生老驥伏櫪、志在千里的鑽研精神還是值得我輩學習的。

 

作為始作俑者,黎曼可能壓根也沒想到自己的猜想能對100多年後的密碼學有所幫助。因為研究素數在“科學的皇后”——數學裡被認為是最純的數學,是與應用毫無關係的數學。這種純性讓數論成為了“數學的皇后”。所以,正常情況下,數學的鄙視鏈是不允許他去推測素數分佈在密碼學中的應用的。

 

據說,站在數學鄙視鏈頂端的純數學研究者,通常是看不起學應用數學的;而學應用數學的,會看不起學統計的。在人工智慧熱潮下,學統計的又看不起研究機器學習的;而學機器學習的會看不起做多媒體的;而做多媒體的又看不起做資料庫的。純做密碼學研究的,鄙視鏈應該在應用數學與機器學習方向之間,哪會被才高八斗的黎曼看上?

能看上黎曼的自然也是大牛, 當年是德國數學家高斯看中了他並理解了他的幾何學觀點。今天要講的也不是黎曼猜想,而是黎曼的幾何學觀點與人工智慧的關係。

 

當年,黎曼申請來到哥廷根大學做無薪講師,就是學校不提供固定薪水、講了課才有薪水的教師。初來乍到,來場學術報告是必需的。當時的學術委員會從黎曼推薦的三個選題中選了一個他最意外的題目,要他以“關於幾何學的基本假設”為主題來做就職報告 。

 

那個時候,公元前三世紀希臘亞歷山大里亞學派的創始者歐幾里德編寫的數學鉅著《幾何原本》中的五條公設中,連大猩猩都很痛恨的第五公設,就是“平行線沒有香蕉(相交)”的第五公設,已經被羅伯切夫斯基於1830年證明不成立。他認為在一個平面上,過已知直線外一點至少有兩條直線與該直線不相交。由此開創了非歐幾里得幾何,雖然他的理論在其死後12年才逐漸被認可。

 

而黎曼開創的非歐幾何則斷言,在平面上,任何兩條直線都必然相交 。他們的發現,最終奠定了非歐幾何的數學基礎。直觀來說,就是以前以為是可以用直線測量準確距離的世界,現在居然要彎了。

 

既然彎了,那就很容易找到相交的可能。比如從籃球的頂部到底部,讓螞蟻沿著表面爬,它只能爬出曲線,且總是相交的。在這個籃球曲面上測得的“直線”距離就只能是彎的,稱為測地線(Geodesic)。

 

在黎曼用了七週時間準備的報告中,他希望在能用直線測距離的歐氏空間和非歐空間之間找到合理的銜接。於是,他假定非歐空間可以由好幾個區域性歐氏空間拼接而成的,提出了多個(英文的字首是mani) 折或層(英文的詞根是fold)的概念,即流形(manifold,對應的德語是mannigfaltigkeit)。

 

簡單且不嚴格來說,就是流形可以用一塊塊的小粘土以任意形式粘在一起來表徵,但每塊區域性的粘土又跟我們常見的歐氏空間是一致的,如圖1所示。至於相鄰粘土塊之間的聯接關係,則要把連續性、光滑性、可微性、抽象性等眾多深奧概念考慮進來,這樣便成了多數人只能看懂目錄的微分流形。

圖1 區域性歐氏與黎曼流形:二維流形或曲面M上的一個區域性p (橙色區域)與歐氏空間中的黃色區域等價。

 

後來,愛因斯坦知道後,如獲至寶。便找了當年他提出狹義相對論時,用到過的洛侖茲變換的數學家洛倫茲本人,請他幫助學習微分流形基礎。在他的幫助下,最終愛因斯坦基於加速度下的不變性原理提出了廣義相對論,將牛頓提出的萬有引力歸結為是彎曲空間的外在表現,開啟了宇觀物理學。

 

不過,那個時候,計算機還沒誕生,也沒人會意識到黎曼提出的流形與人工智慧有什麼關係。

感知的流形方式

 

回到人的智力發育上討論這一關係的存在性。兒童在發育過程中,空間感是逐漸形成的。在他學習觀察世界的過程中,一個需要掃除的認知障礙是遮擋。有心理學家做過實驗,在小孩面前放一個屏障,然後將小孩面前的玩具移到屏障後。小孩會感覺很吃驚,但卻不會繞到屏障後去尋找玩具。這說明在發育的初始階段,小孩缺乏對三維空間尤其是空間深度的理解。經過一段時間後,他的這種障礙會消除 ,對物體空間能力的辯識也明顯加強。

 

 

圖2 旋轉不變性

 

於是,兒童啟蒙課本中便會出現這樣一個新的測試題。放一個奇形怪狀的積木,然後給幾個不同旋轉角度的形狀,其中一個或多個是該積木旋轉後的真實影象,也有不是的,讓小朋友自己去判斷和識別哪些是原來的積木旋轉過來的。令人驚奇地是,小朋友慢慢都會學會如何處理這種旋轉,並能準確判斷。這種旋轉不變效能力的獲得,在格式塔心理學中有過相應的觀察和描述。該現象似乎在告訴我們,人的大腦能對每一個見到的物品進行自動的旋轉。

 

那麼,人是如何記憶這些見過的物品,並實現自動旋轉的呢?格式塔心理學中沒有給出終極答案。

 

而認知心理學則對記憶給了一種可能解釋,叫原型說(prototype),即某個概念都會以原型的形式儲存在記憶中,神經心理學進一步給了假設性的支援,稱記憶是儲存在離散吸引子(discrete attractor)上。儘管這一解釋維持了相當長的時間,但並沒有就為什麼大腦可以實現自動旋轉給出圓滿答案。

 

2000年的時候,普林斯頓大學教授Sebastian Seung 和賓州大學教授Daniel Lee 在《Science》上發了篇論文。他們認為人是以流形方式來記憶的。以視覺感知為例,假定人的視網膜只有三個視神經元,不考慮顏色的變化, 每個神經元能感受一定的光強變化,那麼看到一個母親的人臉後,視神經元上會有三個響應。

 

如果三個視神經元是相互獨立無關的,那就可以把每一個視神經元看成一個維度,就會有一個由三個維度張成的歐氏空間。如果把只是做了側向角度變化的、母親的照片讀入這個的空間, 那三張圖3所示的影象在此空間會有何規律呢?

 

理論上講,如果只做了側向角度變化,那這個變化就是三張影象的內在控制量。只有一個變數,但又不見得會是直線,所以,母親的照片按角度的順序連起來,就會是一條曲線。類似的,如果把小朋友側向角度變化的照片也輸進來,那同樣在這個三維空間會是一條曲線。但可能與母親的不在同一條曲線上。如果這個假設成立,那麼記憶就可能是沿著這兩條不同的曲線來分別還原和生成不同角度的母親和小孩影象。也就能部分解釋,為什麼人只用看陌生人一兩眼,就能認出其在不同角度時的面容。

 

 

圖3 母親和小孩的流形感知方式,假定眼睛只有三個視神經元,母親小孩均只有一個自由度,即左右轉頭。[1]

 

如果再進一步,假設母親小孩有兩個自由度的變化 ,如左右、上下角度的變化,那這兩個維度的變化在三維空間上可以張成無數條曲線的合集,即曲面。在流形的術語中,曲線可以稱為一維流形,而曲面則為二維流形。

 

如果假定變化再豐富點,比如角度的變化有上下角度、左右角度;還有表情的變化,真實和細微的微表情,光照的變化,年齡的變化等諸如此類的,我們把這些變化的維度稱為人臉變化的內在維度,是真正需要記憶的。

 

相比較於人眼裡上億的視神經元總數來說,這些內在維度可以張成的空間比上億維神經元張成的空間要小非常非常多。我們便可以在曲面的名字上再加個超字來刻畫,叫超曲面,也稱為低維流形。考慮到輸入進來的資訊是通過神經元的,所以,又能名字叫得更學術點,稱其為巢狀在高維空間(視神經元空間)的低維流形。

 

與經典的原型學說的主要不同在於,假設用於記憶的離散吸引子能被替換成了連續吸引子,於是儲存在大腦裡的原型便不再是一個點,而可能是一條曲線、一個曲面甚至超曲面。視覺看到的任何內容,都會從不同途徑收斂到這個連續吸引子上,並在此吸引子上實現對不同角度和不同內在維度的外推。這在某種意義上既解釋記憶的方式,又解釋了自動旋轉問題。因此,黎曼流形的構造有可能解決格式塔心理學中提及的“旋轉不變性”問題。

 

圖4 左:離散吸引子;右:連續吸引子[1]

 

那能否讓計算機也實現類似的自我旋轉或推理能力呢?如果能實現,也許就往人工智慧方向邁進了一小步。

關於流形學習的研究

 

以人臉為例,先看下最初的人臉識別技術。早期的做法是遵循歐氏空間距離,按最短直線距離來評判。這樣做的不足是沒有處理好不同角度、不同光照的人臉識別。試想想,如圖5所示的不同角度的A,以及相同正臉的B,假如識別是基於相同畫素位置的光強差異平方總和的最小值來實現,那哪兩張會更近呢?顯然相同角度的A和B距離會更近。這就是歐氏距離直接用於人臉識別的不足。

 

圖5 不同角度的兩個人的照片

 

為什麼計算機沒有人腦的旋轉不變性呢?圖6顯示了一組人臉在攝像機前僅進行平移而保持其它性質不變的影象集。如果把每個畫素視為一個維度,則每張照片可視為高維空間的點,則多次採集的多個人的照片集合看成是該空間的點雲。通過某些簡單的統計策略總結出前三個主要的維數,再將點雲投影到這個三維空間並兩兩描繪出來,便有了圖6的曲線圖。

 

 

 

圖6 人臉內在維度示例[2]

 

不難發現,只控制了角度旋轉的影象序列變成了一條又一條的曲線,這正是我們上面討論的曲線,一維流形。 實際上,如果限定採集時的變數為人臉到攝像機前的遠近變化,結果也是一樣。這一實驗部分印證了人臉影象的內在控制變數是低的。因此,如果希望計算機能對不同角度的人臉有合理的推測功能,和還原格式塔心理學中的旋轉不變性時,找到流形結構並依照它的規則來辦事就很自然了。

 

圖7 各種複雜的流形結構:瑞士捲(Swissroll); 右: 雙螺旋線

 

但是,資料形成的流形結構並非只有曲線一種情況,它可能會有如圖7所示的瑞士捲的複雜結構。他可能還不止一個,比如兩個卷在一起的雙螺旋線。那麼,要想利用經典又好使的歐氏距離來解決問題,可行的方案之一就是把它們攤平或拉平,這樣,我們待分析的資料所處的空間就是歐氏空間了。於是,有大量的流形學習的工作便在此基礎上展開了。

 

最經典的兩篇是與《流形的感知方式》幾乎同時於2000年發表在Science上。因為電腦科學的工作很少有發Science的,能發在上面,則有可能引導大方向的研究。所以,這三項工作被視為引領了2000年後流形學習發展的奠基之作。

 

其想法現在來看的話,其實並不複雜。首先兩篇文章都引入了鄰域 的概念,也就是區域性情況下,流形等同於歐氏空間,因此,短程距離用歐氏度量來計算是合理的。

 

不同的是,Tenenbaum的工作是從測地線距離的計算來考慮的。

 

試想如果有一張紙,紙上有三個點,A、B和C,AB比AC在紙面上更近。但如果把紙彎成圖8的形狀,再按直線距離來算時,AC就會更近。但按流形的定義,AC這條路徑是不能出現的,因為這個紙就是一個空間,是一個不能為二維螞蟻逃脫的空間。因此,更合理的計算方式是把圖8右圖的紅色曲線長度,即測地線精確算出來。

 

 

圖8 測地線距離和區域性等度規(Isomap)演算法 [3]

 

但測地線是在連續意義定義的,要根據離散的資料點來算的話,Tenenbaum等找了個平衡,提出了基於圖距離的區域性等度規演算法。他們假定鄰域內的點與點之間相連的距離都等於1,鄰域以外的距離都強設為0。因為流形可以由若干個小的鄰域來粘合構成,而相鄰的鄰域總會有部分的重疊,那麼,如果把所有距離為1的都連條邊出來,則原來的資料點就構成了一張連通圖。而遠點的距離或者所謂的測地線距離,就可以通過連通的邊的最短距離來近似了,如圖8中圖所示。於是,就可以為所有的點建立一個相似性或距離矩陣。有了這個矩陣,再通過統計方法就能找到其主要的幾個方向了,即攤平的低維子空間,如圖8右圖所示,藍色的測地線距離就為紅色的圖距離近似了。

 

而Roweis和Laul當時則從另一角度來嘗試恢復這個平坦的空間。他假定鄰域內的資料點會相互保持一種幾何關係,關係的緊密程度由權重來決定,權重的總和等於1。同時,他假定這個權重誘導的關係在平坦空間會與觀測的空間保持一致,即區域性結構不變。當然,還得防止資料在還原到低維的平坦空間時不致於坍縮至一點去。基於這些假設,很自然地就把優化方程寫了出來,並獲得了不用迭代求解的閉式解,即區域性線性嵌入演算法,如圖9所示。

 

演算法比較直白,但兩篇文章都發現了類似於圖3和圖4的現象,即約簡到二維平面後,資料的分佈具有物理意義的。比如,手旋轉杯的動作會沿水平方向連續變化 ,人臉影象的姿態和表情會在兩個垂直的軸上分別連續變化 。而這種情況,以前的演算法似乎是找不到的。除此以外,這兩篇工作的成果又很好地與“感知的流形方式”吻合了。

 

 

圖9 區域性線性嵌入(LLE)演算法[4]

 

還有一點,鄰域的大小決定了流形的表現。按幾何學大牛Spivak的說法,鄰域如果和整個歐氏空間一樣大的,那歐氏空間本身就是流形[5]。所以,流形學習的研究並非是一個很特別、很小眾的方向,它是對常規歐氏空間下研究問題的一般性推廣。

 

於是,從2000年開始,國內外對流形學習的研究進入了高潮,希望能找到更有效的發現低維平坦空間的方法。比如希望保持在投影到平坦空間後三點之間角度不變的保角演算法;比如希望保持二階光滑性不變的海森方法;比如希望保持長寬比不變的最大方差展開方法;比如希望保持區域性權重比不變的拉普拉斯演算法等。不過何種方法,都在嘗試還原或保持流形的某一種性質。也有考慮資料本身有噪導致結構易被誤導的,比如我們經常在星際旅行中提到的蟲洞現象,如圖10。它可以將原本隔得很遠的兩個位置瞬間拉近。在資料分析中,稱蟲洞為捷近或短路邊(shortcut),是需要避免的,不然會導致還原的空間是不正常甚至錯誤的。

 

 

圖10 將圖8中的A和C連線的蟲洞或短路邊(Shortcut)問題

 

除了找空間外,流形的一些性質也被自然地作為約束條件加入到各種人工智慧或機器學習的優化演算法裡。即使是現在盛行深度學習研究中,流形的概念也被很時髦地引了進來。如生成對抗網在2014年最初提出的時候,Yann LeCun就指出希望對抗的資料處在資料流形中能量相對高的位置,而真實資料則位於流形能量相對低的位置,這樣,就有可能讓生成對抗網獲得更好的判別能力。

 

 

圖11 生成對抗網中的流形; 左: 高能量值;右:低能量值 [6]

關於流形學習的思考

 

雖然流形學習在認知、機器學習方面都有很好的可解釋性,不過這幾年隨著深度學習的盛行,與它相關的文獻在相對份量上正慢慢減少。一個原因是,由於這一波人工智慧的熱潮主要是產業界開始的,而產業界對預測的重視程度遠高於可解釋性。所以,不管學術界還是產業界都把重心放到如何通過優化深度學習模型的結構和引數優化去了。

 

正如我之前強調過的,過分關心預測效能的同時,必然會犧牲可解釋性。因為前者關心個例,後者需要統計。兩者是一個矛盾,類似於測不準定理中的速度和位置的關係。從目前的情況來看,犧牲的可能還不止流形學習這一種具有可解釋性的方法。儘管大家在討論資料的時候,還會時不時說下流形,但最多也只是扔個概念出來,並沒有太多實質性的融入。

再回到人的大腦來看,雖然之前也提到了流形的感知方式,但是否存在實證還不是完全的明確,Seung和Lee也只是做了些間接的推測。一方面,是測量技術的不足,因為現在都是採用腦電圖描記器(EEG)或磁共振成像(MRI)技術來檢測大腦訊號的,本身就缺乏這種連續性的關聯,要尋找是否大腦中存在流形記憶確實有難度。

 

另一方面,我們的大腦裡面真有一個彎曲的流形記憶空間呢?真是以連續而非離散吸引子形式存在嗎?如果是的,那與現在深度學習的預測模型的做法應該是不同的,其差別就如同飛機和鳥。

 

也許,找尋這個問題的答案,和黎曼猜想的破解是一樣的困難。

 

本文作者

 

 

張軍平 ,復旦大學計算機科學技術學院教授、博士生導師,中國自動化學會混合智慧專委會副主任。主要研究方向包括人工智慧、機器學習、影象處理、生物認證及智慧交通。至今發表論文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。學術谷歌引用2700餘次,ESI高被引一篇,H指數為27。

 

參考文獻:

1. H. Sebastian Seung, Daniel D. Lee. The Manifold Way of Perception. Science 290 (5500): 2268-2269.

2. 李子青,張軍平. 人臉識別的子空間統計學習. 機器學習及應用,清華大學出版社,2006,pp.270-301.

3. J. B. Tenenbaum, V. de Silva, J. C. Langford. A Global Geometric Framework for Nonlinear Dimensionality Reduction. Science 290 (5500): 2319-2323

4. S. Roweis, L. Saul. Nonlinear dimensionality reduction by locally linear embedding. Science 290 (5500): 2323--2326.

5. Michael Spivak. A Comprehensive Introduction to Differential Geometry, Vol. 1, 3rd Edition. Publish or Perish, 1999.

6. LeCun Yann. Predictive Learning. Slide at NIPS 2016.

 

 

更多閱讀

馬斯克:人類極有可能生活在更高文明模擬的矩陣遊戲中

強化學習重大突破:DeepMind用一個AI在57個遊戲中全面超越人類

新智元AI WORLD 2018

世界人工智慧峰會全程回顧

 

新智元於9月20日在北京國家會議中心舉辦AI WORLD 2018世界人工智慧峰會,邀請機器學習教父、CMU教授 Tom Mitchell,邁克思·泰格馬克,周志華,陶大程,陳怡然等AI領袖一起關注機器智慧與人類命運。

 

全程回顧新智元 AI World 2018 世界人工智慧峰會盛況:

愛奇藝

上午:https://www.iqiyi.com/v_19rr54cusk.html

下午:https://www.iqiyi.com/v_19rr54hels.html

新浪:http://video.sina.com.cn/l/p/1724373.html