清華大學張長水教授:機器學習和影象識別(附視訊、PPT下載)
本篇乾貨整理自清華大學自動化系教授張長水於2018年4月27日在清華大學資料科學研究院第二屆“大資料在清華”高峰論壇主論壇所做的題為《機器學習和影象識別》的演講。
注:後臺回覆關鍵詞“0427”,下載完整版PPT。
演講視訊:
視訊時長約半個小時,建議使用wifi觀看
張長水:大家好,我來自清華大學自動化系,主要做機器學習和影象識別的研究。現在人工智慧很流行,機器學習也推到風口浪尖上,影象識別已經變成產品,新聞媒體告訴我們AlphaGo、AlphaGozero已經戰勝了人類、面板癌的識別超過了大夫、無人車已經上路測試,很快要量產。這些新聞彷彿告訴我們,影象識別的問題已經解決了,然而很多高科技做影象識別公司都
一、大量資料
現在做影象識別,要求有大量的資料。什麼叫大量的資料?比如上圖是在業界做影象識別的資料集,包含很多類別的影象,像飛機、鳥、貓、鹿、狗。對於一個物體,需要有不同的表現,需要有不同的外觀在不同的環境下的表現,所以我們需要很多照片素材。
儘管在我們領域裡有很多大的資料集,但其實這些資料集遠遠不能滿足我們的實用產品的要求。比如說我們看這樣一個文字識別的例子。文字識別比一般的影象識別要簡單,因為文字不涉及到三維,它只是一個平面的東西。
二、大量的樣本
比如我們要識別清華大學的“清”,通常的做法是收集“清”的各種各樣的影象,所謂各種各樣的影象就是說要包括不同的字型,不同的光照,不同的背景噪聲,不同的傾斜等,要想把“清”字識別好,就需要收集上很多這樣的樣本。那麼這麼做得困難是什麼?
三、困難
1、樣本的獲取
當我們應用於實際、設計產品的時候,就會發現不是每一種情況下都有那麼多資料。所以,怎麼獲得豐富的資料是首要的問題。
上圖給大家展示的這一排影象是一個交通標誌的識別任務。我們如果需要去識別路上的交通標誌,就要在不同的環境下,不同的光照下,比如說早晨、中午、晚上,逆光還是背光,不同的視角,是否有遮擋,所有的因素都要考慮到,來採集資料。經驗上每種標識收集上千張或者更多的影象,才能保證識別率到達實際應用的水平。
我們的問題是什麼?看第一張影象。第一張圖是有連續急轉的標誌。這樣的標誌在城市很難見到,除非到山區。這個例子說明,影象獲取本身就不容易。
2、樣本的標註
我們現在的影象識別方法是基於標註的資料的,這叫做監督學習。影象標註就意味著把影象一張一張摳出來。如果我們開車穿梭在北京市大街小巷,但是交通標誌並不是在視訊的每一張圖片上出現。如果我們需要把視訊中交通標誌如果都要標出來,需要花很多錢。做機器學習的人會關心我們能不能通過一些其他更廉價的方法去做資料標註,例如能不能通過一些眾包的方式去做。在12306網站購買火車票,每次讓我們勾出相對應的影象,這可以看做是在標註資料。但是眾包標註資料也存在一些問題,就是每個人標的時候會不一樣,有時會有錯誤。所以在機器學習中,有人關心在眾包情況下、標註資料有錯的時候,我們如何設計學習演算法,使得它對錯誤的標註不敏感。這個事大概七八年前就開始研究,不斷的有新的文章出現。
當資料沒有那麼多的時候,怎麼辦?機器學習界遇到了這樣的問題,就是小樣本的資料學習。當樣本不多的時候能不能達到和大資料量類似的識別效果?例如上圖中只有幾張狗的圖片的時候,要識別狗,還能從哪裡得到狗的資訊?思路是從其他的圖片中來,比如上邊有有鳥,有貓,有鹿,它們的皮毛很像狗等等。換句話說,他從其他的豐富的影象中獲取一些資訊,把那些資訊遷移到這個少量的資料上,從而能夠實現對狗的識別。
另外,圖片數量是否能降到只有一張?比如清華大學的“清”,只有一個模板影象,是否能夠把文字識別做好。更極端的例子,能不能做到一個樣本都沒有,也就是說,機器在沒有見過狗的情況下,是否能把狗識別出來,這都是研究人員關心的事情。
3、大資料量的訓練
有了很多的資料還需要對它進行訓練,這通常需要花很長時間,需要配備高階的裝置去訓練。
我們有了大量的資料怎麼去做訓練?可以採用GPU去做訓練,這樣可以達到特別快的速度。在這大的資料量上進行訓練和學習的問題,叫做big learning。
Big learning 關心是否有更快速的方法訓練呢,需要一個月才能訓練出來的問題,能不能在一天就訓練出來;能不能用並行訓練?如果資料不能一次存到硬盤裡,這個時候怎麼學習呢?這些就是企業和機器學習界都關心的事。
除此之外,我們發現深度學習模型很容易被攻擊。如上圖左邊是一隻熊貓,我們已經訓練好網路能夠識別出這是一隻熊貓。如果我在這張影象上加了一點點噪聲,這個噪聲在右圖你幾乎看不出來,我再把這個疊加後的影象給網路,它識別出來的不是熊貓,是別的東西。而且它以99.3%的信心說這不是熊貓,甚至你可以指定他是任何一個東西。這件事情的風險在什麼地方?如果只是娛樂一下,也沒什麼大關係。但是如果把它用於軍事或者金融後果就比較嚴重了。因此我們一直在關心這個問題怎麼解決,就是希望演算法能夠抗攻擊性強一點,但目前只是緩解而沒有徹底解決。
而且研究中會發現這個問題,相當於去研究分類器的泛化效能。泛化效能這件事在機器學習裡是理論性很強的問題,是機器學習圈子裡面非常少的一些人做的事情。換句話說,這個問題看起來很應用,其實它涉及了背後的一些很深理論。為什麼會出現這樣的情況?因為我們對深度學習這件事沒有太好的理論去解釋它,我們沒有那麼好的方法去把所有的問題解決。
我們再說風險,影象識別中我們會把一個學習問題往往形式化一個優化問題,然後去優化這個函式,使這個函式最小。我們把這個函式叫做目標函式。有的時候我們會把這樣的函式叫做損失函式,物體識別有錯就帶來損失。就是說在整個過程我們希望不要有太多的損失。其實,風險函式可能是更合適的詞。因為你識別錯了,其實是有風險的。一般來說目標函式對應於錯誤率,把狗識別成貓錯了一張,把貓識別成狗又錯了一張,都影響錯誤率,而錯誤率足以反映演算法的效能。
但是在不同的問題裡,識別錯誤的風險是不一樣的。比如我們做一個醫學上的診斷,本來是正常人,你判別說他有癌症,這種錯誤就導致虛驚一場。還有一種情況是他患有惡性腫瘤,演算法沒有識別出來而導致了延誤治療。這樣的錯誤風險就很大。因此我們在優化的時候,這個目標函式其實是應該把這樣的決策錯誤和風險放到裡面去,我的目標是優化這個風險。但是這件事往往是和應用、和我們的產品設計相關。所以不同的產品設計,它的決策風險不一樣。所以我們在設計產品的時候,是要考慮。
蘋果宣稱他們的人臉識別錯誤率是百萬分之一,如果別人來冒充你去用這個手機是百萬分之一的可能性,就是說,別人冒充你是很難的;但是人臉識別還有一種錯誤,就是:我自己用我的手機,沒有識別出是我,這個錯誤率是10%。換句話說,你用十次就會有一次不過。在用手機這個問題上不明顯,但是如果用於金融,這個事就有風險。我們設計產品的時候,你就要考慮風險在哪,我們怎麼樣使得整個風險最小,而不是隻考慮其中一邊的錯誤率。
有公司會宣傳說錯誤率可以降到百萬分之一,讓人誤以為人臉識別的問題已經解決了,然而我們在CAPR、ICCA這樣的學術會議上仍然能看到怎麼去做文字的檢測,怎麼去做人臉識別的研究。換句話說這件事還沒有到那麼容易使用的地步。所以我們做影象識別的產品有風險,產品設計要考慮風險,我們做這件事就要考慮用技術的時候,用對地方很重要,用錯地方就會很大的風險。
機器學習是一個和應用緊密結合的學科,雖然有很多高大上的公式,其實都是面向應用,希望能解決實際問題。實際應用給我們提出很多需求,影象識別遇到的問題給我們提出了挑戰。最後,感謝各位的聆聽。
注:後臺回覆關鍵詞“0427”,下載完整版PPT。
張長水教授簡介
張長水,清華-青島資料科學研究院二維碼安全技術研究中心主任,智慧技術與系統國家重點實驗室學術委員會委員,清華大學自動化系教授、博士生導師,IEEE Fellow 。主要從事機器學習與人工智慧、計算機視覺等研究工作。
清華-青島資料科學研究院二維碼安全技術研究中心:
中心成立於2017年4月25日,由張長水教授擔任中心主任。中心致力於以核心技術研發為基礎,為移動互聯、移動支付和社會治理等領域提供二維碼技術相關標準和應用解決方案。中心依託清華大學雄厚的科研實力和銀河聯動十餘年研發積澱的二維碼專利技術,目前在全球二維碼技術研發領域具有領先地位。此次校企聯合成立二維碼安全技術研究中心,將進一步鞏固和擴大清華在二維碼技術上的領先優勢,服務於產業發展、社會治理和國家安全。
更多資訊可瞭解資料科學研究院官網:
http://www.ids.tsinghua.edu.cn/
資料派曾獨家釋出過張老師的更多演講乾貨,感興趣的讀者可以回顧瞭解:
2017年10月14日的阿里雲棲大會機器學習峰會專場上,張長水教授為大家帶來“神經網路模型結構優化”的主題演講,分享了神經網路模型結構優化的新辦法,並解析實驗過程、效果及應用案例。
2015年11月26日張老師在RONGv2.0---圖形影象處理與大資料技術論壇上所做的題為《機器學習與影象識別》的演講,分享了關於機器學習和影象識別的研究及進展。
校對:李君
為保證發文質量、樹立口碑,資料派現設立“錯別字基金”,鼓勵讀者積極糾錯。
若您在閱讀文章過程中發現任何錯誤,請在文末留言,經小編確認後,資料派將向檢舉讀者發8.8元紅包。
同一位讀者指出同一篇文章多處錯誤,獎金不變。不同讀者指出同一處錯誤,獎勵第一位讀者。
感謝一直以來您的關注和支援,希望您能夠監督資料派產出更加高質的內容。
相關推薦
清華大學張長水教授:機器學習和影象識別(附視訊、PPT下載)
本篇乾貨整理自清華大學自動化系教授張長水於2018年4月27日在清華大學資料科學研
終極演算法:機器學習和人工智慧如何重塑世界筆記(轉)
終極演算法:機器學習和人工智慧如何重塑世界筆記 2017年08月17日 11:00:38 Notzuonotdied 閱讀數:4492 版權宣告:本文為博主原創文章,未經博主允許不得轉載。 https://blog.csdn.net/Notzuonotdied/artic
MIT與谷歌專家合著論文:機器學習和神經科學的相互啟發與融合
摘 要 神經科學專注的點包括計算的細節實現,還有對神經編碼、力學以及迴路的研究。然而,在機器學習領域,人工神經網路則傾向於避免出現這些,而是往往使用簡單和相對統一的初始結構,以支援成本函式(cost funcion)的蠻力最優化。近期出現了兩項機器學習方面的進展,或許會將這兩種看似不同的
演變:機器學習和基於 Web 的體驗 ,快速、實時和完全互動
文 / Takashi Kawashima 插圖 / Morgane Sanglier 來源 | TensorFlow 公眾號 毋庸置疑,機器學習(ML)的出現是現代電腦科學領域的一個突破性時刻。作為設計師以及使用者,我們已經看到了它的切實的影響:ML 助力改變
10 種機器學習演算法的要點(附 Python 和 R 程式碼)
1. 監督式學習 監督式學習演算法包括一個目標變數(因變數)和用來預測目標變數的預測變數(自變數)。通過這些變數我們可以搭建一個模型,從而對於一個已知的預測變數值,我們可以得到對應的目標變數值。重複訓練這個模型,直到它能在訓練資料集上達到預定的準確度。 屬於監
國際流行開源機器學習和模式識別工具
Machine Learning M2K - M2K represents the music-specific set of D2K modules designed to create a Virtual Research Lab (VRL) for MIR/MD
面試筆試整理4:機器學習面試問題準備(進階)
這部分主要是針對上面問題的一些更細節的補充,包括公式的推倒思路、模型的基本構成、細節問題的分析等等。 一、問題雜燴 1、PCA的第二主成分 第二個主成分時域第一成分方向正教的差異性次大方向。 2、什麼時候用組合的學習模型 只有當各個模型之間沒有相關
【ML1】機器學習之EM演算法(含演算法詳細推導過程)
寫在前面的話:對於EM演算法(Expectation Maximization Algorithm, 最大期望演算法), 大家如果僅僅是為了使用,則熟悉演算法流程即可。此處的演算法推導過程,僅提供給大家進階 之用。對於其應用,
機器學習效能評估指標(精確率、召回率、ROC、AUC)
實際上非常簡單,精確率是針對我們預測結果而言的,它表示的是預測為正的樣本中有多少是對的。那麼預測為正就有兩種可能了,一種就是把正類預測為正類(TP),另一種就是把負類預測為正類(FP)。 P = TP/(TP+FP) 而召回
【深度學習數學基礎】向量點乘(內積)和叉乘(外積、向量積)概念及幾何意義解讀
1. 點乘 向量的點乘,也叫向量的內積、數量積,對兩個向量執行點乘運算,就是對這兩個向量對應位一一相乘之後求和的操作,點乘的結果是一個標量。 對於向量a和向量b:
《機器學習實戰》訓練營——(10月8日作業)
10月8日的作業2:在構建一個決策樹模型時,我們對某個屬性分割節點,下面四張圖中,哪個屬性對應的資訊增益最大? 1.參照《統計學習方法》梳理了資訊增益的定義; 2.列出了資訊增益的演算法流程; 3.對於作業中給出的四張圖,按照演算法流程進行了資訊增益的計算,最後得出ou
(三)機器學習——感知機模型(附完整程式碼)
感知機是這一種二類線性分類模型,其輸入例項的特徵向量,輸出為例項的類別,取+1和-1二值。感知機模型和LR模型(https://blog.csdn.net/u014571489/article/details/83387681 ) 一樣都是二分模型,但是目標函式(損失函式)不一樣。 感知
機器學習基石—作業2(16-20題Python實現)
import numpy as np from numpy import random def sign(x):#自定義符號函式,只返回-1,+1 ret=np.ones(x.shape) for i,each in enumerate(x):
10大機器學習開源專案推薦(Github平均star為1385)
翻譯 | suisui出品 | 人工智慧頭條(AI_Thinker)本文推薦的10大機器學習開源專案是由Myb
NLP大神推薦的機器學習入門書單(附大量百度網盤電子書)
繼NLP之後,我又開了ML這個大坑。這是因為NLP涉及到太多的ML模型,僅僅拿過來用的話,我實現的HanLP已經快到個人極限了。而模型背後的原理、如何優化、如何並行化等問題,都需要尋根求源才能解決。 所以我找了個書單自學,電子書為主,順便分享出來。 ML書單│李航.統
【機器學習】人像識別(三)——K-Means聚類
簡介 K-Means聚類是一種非監督的聚類方式,原理參看資料探勘十大演算法 | k-means。 程式碼 import sys import random import numpy as np from sklearn.decomposit
【機器學習】人像識別(二)——PCA降維
降維沒有什麼祕訣。我用了python裡sklearn.decomposition模組的IncrementalPCA。 程式碼如下: X = np.array(dots) # do
斯坦福大學機器學習筆記——推薦系統(協同過濾、低秩分解、推薦系統)
這個部落格讓我們來討論一下推薦系統,首先我們來討論一下為什麼學習推薦系統: 1. 推薦系統是機器學習中的一個重要應用,它已經用於很多企業中,比如淘寶、今日頭條、亞馬遜等。它們會根據你的瀏覽記錄,當你再
機器學習-K-Means演算法(附原始碼)
定義 俗話說“物以類聚”,其實從廣義上說,聚類就是將資料集中在某些方面相似的資料成員放在一起。一個聚類就是一些資料例項的集合,其中處於相同聚類中的資料元素彼此相似,但是處於不同聚類中的元素彼此不同。由於在聚類中那些表示資料類別的分類或分組資訊是沒有的,即這些資料是沒