清華大學張長水教授：機器學習和影象識別（附視訊、PPT下載）

阿新 • • 發佈：2019-01-14

本篇乾貨整理自清華大學自動化系教授張長水於2018年4月27日在清華大學資料科學研究院第二屆“大資料在清華”高峰論壇主論壇所做的題為《機器學習和影象識別》的演講。

注：後臺回覆關鍵詞“0427”，下載完整版PPT。

演講視訊：

視訊時長約半個小時，建議使用wifi觀看

張長水：大家好，我來自清華大學自動化系，主要做機器學習和影象識別的研究。現在人工智慧很流行，機器學習也推到風口浪尖上，影象識別已經變成產品，新聞媒體告訴我們AlphaGo、AlphaGozero已經戰勝了人類、面板癌的識別超過了大夫、無人車已經上路測試，很快要量產。這些新聞彷彿告訴我們，影象識別的問題已經解決了，然而很多高科技做影象識別公司都

還在高薪聘用掌握機器學習的人才。影象識別問題解決了嗎？我們看看現在影象識別還有些什麼問題。

一、大量資料

現在做影象識別，要求有大量的資料。什麼叫大量的資料？比如上圖是在業界做影象識別的資料集，包含很多類別的影象，像飛機、鳥、貓、鹿、狗。對於一個物體，需要有不同的表現，需要有不同的外觀在不同的環境下的表現，所以我們需要很多照片素材。

儘管在我們領域裡有很多大的資料集，但其實這些資料集遠遠不能滿足我們的實用產品的要求。比如說我們看這樣一個文字識別的例子。文字識別比一般的影象識別要簡單，因為文字不涉及到三維，它只是一個平面的東西。

二、大量的樣本

比如我們要識別清華大學的“清”，通常的做法是收集“清”的各種各樣的影象，所謂各種各樣的影象就是說要包括不同的字型，不同的光照，不同的背景噪聲，不同的傾斜等，要想把“清”字識別好，就需要收集上很多這樣的樣本。那麼這麼做得困難是什麼？

三、困難

1、樣本的獲取

當我們應用於實際、設計產品的時候，就會發現不是每一種情況下都有那麼多資料。所以，怎麼獲得豐富的資料是首要的問題。

上圖給大家展示的這一排影象是一個交通標誌的識別任務。我們如果需要去識別路上的交通標誌，就要在不同的環境下，不同的光照下，比如說早晨、中午、晚上，逆光還是背光，不同的視角，是否有遮擋，所有的因素都要考慮到，來採集資料。經驗上每種標識收集上千張或者更多的影象，才能保證識別率到達實際應用的水平。

我們的問題是什麼？看第一張影象。第一張圖是有連續急轉的標誌。這樣的標誌在城市很難見到，除非到山區。這個例子說明，影象獲取本身就不容易。

2、樣本的標註

我們現在的影象識別方法是基於標註的資料的，這叫做監督學習。影象標註就意味著把影象一張一張摳出來。如果我們開車穿梭在北京市大街小巷，但是交通標誌並不是在視訊的每一張圖片上出現。如果我們需要把視訊中交通標誌如果都要標出來，需要花很多錢。做機器學習的人會關心我們能不能通過一些其他更廉價的方法去做資料標註，例如能不能通過一些眾包的方式去做。在12306網站購買火車票，每次讓我們勾出相對應的影象，這可以看做是在標註資料。但是眾包標註資料也存在一些問題，就是每個人標的時候會不一樣，有時會有錯誤。所以在機器學習中，有人關心在眾包情況下、標註資料有錯的時候，我們如何設計學習演算法，使得它對錯誤的標註不敏感。這個事大概七八年前就開始研究，不斷的有新的文章出現。

當資料沒有那麼多的時候，怎麼辦？機器學習界遇到了這樣的問題，就是小樣本的資料學習。當樣本不多的時候能不能達到和大資料量類似的識別效果？例如上圖中只有幾張狗的圖片的時候，要識別狗，還能從哪裡得到狗的資訊？思路是從其他的圖片中來，比如上邊有有鳥，有貓，有鹿，它們的皮毛很像狗等等。換句話說，他從其他的豐富的影象中獲取一些資訊，把那些資訊遷移到這個少量的資料上，從而能夠實現對狗的識別。

另外，圖片數量是否能降到只有一張？比如清華大學的“清”，只有一個模板影象，是否能夠把文字識別做好。更極端的例子，能不能做到一個樣本都沒有，也就是說，機器在沒有見過狗的情況下，是否能把狗識別出來，這都是研究人員關心的事情。

3、大資料量的訓練

有了很多的資料還需要對它進行訓練，這通常需要花很長時間，需要配備高階的裝置去訓練。

我們有了大量的資料怎麼去做訓練？可以採用GPU去做訓練，這樣可以達到特別快的速度。在這大的資料量上進行訓練和學習的問題，叫做big learning。

Big learning 關心是否有更快速的方法訓練呢，需要一個月才能訓練出來的問題，能不能在一天就訓練出來；能不能用並行訓練？如果資料不能一次存到硬盤裡，這個時候怎麼學習呢？這些就是企業和機器學習界都關心的事。

除此之外，我們發現深度學習模型很容易被攻擊。如上圖左邊是一隻熊貓，我們已經訓練好網路能夠識別出這是一隻熊貓。如果我在這張影象上加了一點點噪聲，這個噪聲在右圖你幾乎看不出來，我再把這個疊加後的影象給網路，它識別出來的不是熊貓，是別的東西。而且它以99.3%的信心說這不是熊貓，甚至你可以指定他是任何一個東西。這件事情的風險在什麼地方？如果只是娛樂一下，也沒什麼大關係。但是如果把它用於軍事或者金融後果就比較嚴重了。因此我們一直在關心這個問題怎麼解決，就是希望演算法能夠抗攻擊性強一點，但目前只是緩解而沒有徹底解決。

而且研究中會發現這個問題，相當於去研究分類器的泛化效能。泛化效能這件事在機器學習裡是理論性很強的問題，是機器學習圈子裡面非常少的一些人做的事情。換句話說，這個問題看起來很應用，其實它涉及了背後的一些很深理論。為什麼會出現這樣的情況？因為我們對深度學習這件事沒有太好的理論去解釋它，我們沒有那麼好的方法去把所有的問題解決。

我們再說風險，影象識別中我們會把一個學習問題往往形式化一個優化問題，然後去優化這個函式，使這個函式最小。我們把這個函式叫做目標函式。有的時候我們會把這樣的函式叫做損失函式，物體識別有錯就帶來損失。就是說在整個過程我們希望不要有太多的損失。其實，風險函式可能是更合適的詞。因為你識別錯了，其實是有風險的。一般來說目標函式對應於錯誤率，把狗識別成貓錯了一張，把貓識別成狗又錯了一張，都影響錯誤率，而錯誤率足以反映演算法的效能。

但是在不同的問題裡，識別錯誤的風險是不一樣的。比如我們做一個醫學上的診斷，本來是正常人，你判別說他有癌症，這種錯誤就導致虛驚一場。還有一種情況是他患有惡性腫瘤，演算法沒有識別出來而導致了延誤治療。這樣的錯誤風險就很大。因此我們在優化的時候，這個目標函式其實是應該把這樣的決策錯誤和風險放到裡面去，我的目標是優化這個風險。但是這件事往往是和應用、和我們的產品設計相關。所以不同的產品設計，它的決策風險不一樣。所以我們在設計產品的時候，是要考慮。

蘋果宣稱他們的人臉識別錯誤率是百萬分之一，如果別人來冒充你去用這個手機是百萬分之一的可能性，就是說，別人冒充你是很難的；但是人臉識別還有一種錯誤，就是：我自己用我的手機，沒有識別出是我，這個錯誤率是10%。換句話說，你用十次就會有一次不過。在用手機這個問題上不明顯，但是如果用於金融，這個事就有風險。我們設計產品的時候，你就要考慮風險在哪，我們怎麼樣使得整個風險最小，而不是隻考慮其中一邊的錯誤率。

有公司會宣傳說錯誤率可以降到百萬分之一，讓人誤以為人臉識別的問題已經解決了，然而我們在CAPR、ICCA這樣的學術會議上仍然能看到怎麼去做文字的檢測，怎麼去做人臉識別的研究。換句話說這件事還沒有到那麼容易使用的地步。所以我們做影象識別的產品有風險，產品設計要考慮風險，我們做這件事就要考慮用技術的時候，用對地方很重要，用錯地方就會很大的風險。

機器學習是一個和應用緊密結合的學科，雖然有很多高大上的公式，其實都是面向應用，希望能解決實際問題。實際應用給我們提出很多需求，影象識別遇到的問題給我們提出了挑戰。最後，感謝各位的聆聽。

注：後臺回覆關鍵詞“0427”，下載完整版PPT。

張長水教授簡介

張長水，清華-青島資料科學研究院二維碼安全技術研究中心主任，智慧技術與系統國家重點實驗室學術委員會委員，清華大學自動化系教授、博士生導師，IEEE Fellow 。主要從事機器學習與人工智慧、計算機視覺等研究工作。

清華-青島資料科學研究院二維碼安全技術研究中心：

中心成立於2017年4月25日，由張長水教授擔任中心主任。中心致力於以核心技術研發為基礎，為移動互聯、移動支付和社會治理等領域提供二維碼技術相關標準和應用解決方案。中心依託清華大學雄厚的科研實力和銀河聯動十餘年研發積澱的二維碼專利技術，目前在全球二維碼技術研發領域具有領先地位。此次校企聯合成立二維碼安全技術研究中心，將進一步鞏固和擴大清華在二維碼技術上的領先優勢，服務於產業發展、社會治理和國家安全。

更多資訊可瞭解資料科學研究院官網:
http://www.ids.tsinghua.edu.cn/

資料派曾獨家釋出過張老師的更多演講乾貨，感興趣的讀者可以回顧瞭解：

2017年10月14日的阿里雲棲大會機器學習峰會專場上，張長水教授為大家帶來“神經網路模型結構優化”的主題演講，分享了神經網路模型結構優化的新辦法，並解析實驗過程、效果及應用案例。

2015年11月26日張老師在RONGv2.0---圖形影象處理與大資料技術論壇上所做的題為《機器學習與影象識別》的演講，分享了關於機器學習和影象識別的研究及進展。

校對：李君

為保證發文質量、樹立口碑，資料派現設立“錯別字基金”，鼓勵讀者積極糾錯。
若您在閱讀文章過程中發現任何錯誤，請在文末留言，經小編確認後，資料派將向檢舉讀者發8.8元紅包。
同一位讀者指出同一篇文章多處錯誤，獎金不變。不同讀者指出同一處錯誤，獎勵第一位讀者。
感謝一直以來您的關注和支援，希望您能夠監督資料派產出更加高質的內容。

清華大學張長水教授：機器學習和影象識別（附視訊、PPT下載）

清華大學張長水教授：機器學習和影象識別（附視訊、PPT下載）

終極演算法：機器學習和人工智慧如何重塑世界筆記（轉）

MIT與谷歌專家合著論文：機器學習和神經科學的相互啟發與融合

演變：機器學習和基於 Web 的體驗，快速、實時和完全互動

10 種機器學習演算法的要點（附 Python 和 R 程式碼）

國際流行開源機器學習和模式識別工具

面試筆試整理4：機器學習面試問題準備（進階）

【ML1】機器學習之EM演算法（含演算法詳細推導過程）

機器學習效能評估指標（精確率、召回率、ROC、AUC）

【深度學習數學基礎】向量點乘（內積）和叉乘（外積、向量積）概念及幾何意義解讀

《機器學習實戰》訓練營——（10月8日作業）

機器學習公眾號推薦（值得關注的公眾號）

（三）機器學習——感知機模型（附完整程式碼）

機器學習基石—作業2（16-20題Python實現）

10大機器學習開源專案推薦（Github平均star為1385）

NLP大神推薦的機器學習入門書單（附大量百度網盤電子書）

【機器學習】人像識別（三）——K-Means聚類

【機器學習】人像識別（二）——PCA降維

斯坦福大學機器學習筆記——推薦系統（協同過濾、低秩分解、推薦系統）

機器學習-K-Means演算法（附原始碼）

清華大學張長水教授：機器學習和影象識別（附視訊、PPT下載）

相關推薦