1. 程式人生 > >今天閱讀《周志華:深度學習很有用,但過度追捧就有危險了 》

今天閱讀《周志華:深度學習很有用,但過度追捧就有危險了 》

http://mp.weixin.qq.com/s/dHATlb1G2gvNztT_BeWaTw

導讀

周志華教授是蜚聲國內外的機器學習專家,也是2017屆中國人工智慧大會的主席之一。他的《機器學習》20161月出版之後,迅速成為這個領域的一本權威教材,在一年半的時間裡重印十幾次,發行逾16萬冊,並被冠以“西瓜書”的暱稱,成為這一輪 AI 熱潮的一個重要註腳。周志華教授潛心學術,為人低調,極少接受採訪。這次中國人工智慧大會上,由會議安排,他破例接受了我們的專訪,就很多重要問題坦率的談了自己的看法。我們特將內容整理成文,以饗讀者。

大反轉難免會有,盲目追捧深度學習有危險

AI科技大本營:感謝周教授接受採訪。先談談當下最火的深度學習。河南大學的張重生教授在他的《深度學習》一書裡摘錄了你的一段話,是這麼說的:

有點幽默,但很樸實,深度學習現在差不多就是民工活,調來調去,刷來刷去。文章發得飛快,貌似熱鬧,但有多少是能積澱下來的實質真進展,又有多少是換個資料就不靠譜了的矇事撞大運?既缺乏清澈乾淨的內在美感,又不致力於去偽存真、正本清源,只圖熱鬧好看,遲早把 arXiv 變成廢紙堆。

看來,對今天深度學習火爆的局面,您有您的不以為然。能否詳細的解釋一下您的觀點?

周志華:不要誤會,深度學習技術本身確實非常有用,能解決很多難題。有問題的是我看到國內的一種態勢,什麼東西一熱起來,大家一擁而上,把所有其他東西全部都忽略了,好像機器學習乃至人工智慧裡面只有深度學習,這是很大的問題。

深度學習中間還有很多困難而又重要的問題值得深入研究,但這些真正值得研究的問題,就我看到的情況而言,好像做的人非常少。大多數人在幹什麼呢?拿它做做應用,調調引數,效能刷幾個點,然後發幾篇文章。這樣雖然容易發表文章,但恐怕很難產生有影響的成果。工業界倒是沒什麼,不管用什麼技術,產品效能提升了就好,但是學術界這樣就不太正常了,都去做深度學習的應用,不去研究深度學習機器學習裡面更本質的問題,我擔心很多年輕人的聰明才智被耽誤了。

另一方面,如果所有的人都只看到深度學習,忽略了其他研究內容,這是相當危險的。例如我們回顧一下,2010年左右的時候,有多少人意識到神經網路技術很有用了?很少。但其實這方面早在2005年左右的時候就已經突破了。那麼當時為什麼意識不到呢?因為大家都在追熱門,而神經網路當時是冷門。這樣的事情會不會重演?也許10年之後很重要的技術,今天已經有苗頭了,如果我們全都撲向深度學習,根本不去關心其他的東西,那會不會把未來丟掉了?

AI科技大本營:現在很多人都想學習深度學習,沾沾仙氣。一般來說學習深度學習,總還是要具備一個比較完整的機器學習基礎。但現在很多人不學機器學習基礎課,一上來就搞深度學習,好像也能學得會,您贊成這種速成法嗎?

周志華:這要看學習的目的是什麼。

如果僅僅是為了使用現有的深度學習工具去做應用、解決已經清楚定義好的任務,那麼可以去學速成法。只不過,這樣的工作很容易被其他人替代。如果學習的目的是為了深入理解,為了在深度學習的研究裡面有自己的創新,或者為了自如地解決那些沒人給你清楚定義好的任務,那麼恐怕還是要從打好基礎開始。這就像武俠小說裡的“正宗功夫”要慢慢打基礎,“邪門功夫”上手快、短期內更“厲害”,但是到了後來,邪門功夫到了一定程度就會上不去了。

AI科技大本營:也就是說您認為深度學習是對傳統方法的一次反轉,而未來還會有別的方法來反轉深度學習。您覺得這個可能性有多大?

周志華:“反轉”這個詞未必合適,但是必然會有更強的技術出現。

AI科技大本營:會是什麼?概率圖模型還有戲嗎?

周志華:我們沒法準確的“預知未來”。我想我們應該去關注一些重要的問題,這些問題在什麼時候能得到解決,就可能帶來新的突破。這涉及到很多其他方面的因素甚至機遇,沒法能夠事先規劃出來下一個東西爆發點在哪。所以我覺得我們千萬不要把眼光侷限在一個地方。至於概率圖模型,它有它的短板,也有它擅長的問題。

AI科技大本營:我知道您偏愛整合學習方法。現在的隨機森林演算法、XGBoost 演算法,效果很好,非常流行。不過我們都知道機器學習有所謂的“No free lunch theorem”,也就是說對於一般的問題,任意兩種機器學習演算法的期望效能都相同,沒有哪一種方法是有絕對優勢的。可是現實情況是,在 Kaggle 和其他的機器學習大賽當中,深度學習和XGBoost 基本上一統天下。這種情況為什麼會出現?

周志華:機器學習技術解決現實問題的時候,通常要“度身定做”,根據問題的特性去對方法做改造、甚至設計出專門的新方法,才能有更好的效果。但是能這樣做的人不多,需要很資深的專家。Kaggle之類的比賽裡面,普通級別的玩家比較多,這時候比較熱門流行的技術就比較容易被關注、被嘗試,並且深度學習和XGBoost都有現成的工具,很容易就被拿來用。不過我們應該意識到,在某個比賽上獲得優勝的方法,未必是在這個任務上最優秀的技術。因為比賽的名次和很多東西有關,例如兩種不同的方法,使用的人經驗不同、花的功夫不同、使用的資源不同,最後的名次是因為方法本身的差別導致的,還是其他因素導致的,很難說。

AI科技大本營:您前一段時間發表了一篇文章,提出了 Deep Forest 演算法,引起廣泛的關注。它是怎麼出來的?現在進行到什麼階段了?

周志華:這個工作是希望能開啟一個新的方向。今天在很多涉及到影象、聲音的任務中,深度學習表現很出色。我們可以從兩方面來看。一方面,現在當大家說到深度學習的時候,基本上就是在談深度神經網路,甚至很多人認為深度學習只能通過神經網路來做。那麼,深度學習是不是隻能通過神經網路做?用別的結構行不行?這在理論上是很重要的一個問題。因為神經網路基本部件是可微分的,這直接導致了後續誤差逆傳播等技術選擇,而現實世界當中並不是所有的規律都是平滑可微分的,非要用可微分的部件來建模,一定是最佳路徑嗎?而且機器學習中有很多型別的部件,其中相當一部分是不可微分的,基於這些部件能不能進行深度學習?這些問題我們希望探索一下,可能會產生新的啟發。

另一方面,從應用的角度看,雖然今天深度神經網路在很多工上效能很好,但仍然有很多工,像隨機森林這樣的技術表現出色,甚至比深度學習效果還好。那麼,如果能做出深度森林來,會不會在這些任務上有更好的結果呢?從某種意義上說,相當於是把深度學習的適用範圍推廣到更多的任務上去,這是它在應用上的價值。

就這個工作來說,我們更關心的是這條路能不能走,畢竟這是一條新的道路。如果能走,效能改進和效率提升是後面的事,有很大的空間。至於能走多遠,現在我們也不清楚。就像20來年前,卷積神經網路剛出來的時候,沒人預料到它後來掀起了深度學習的熱潮。

AI科技大本營:所以 Deep Forest 不是小打小鬧,是您戰略性的研究方向,是不是這樣?

周志華:這個工作確實考慮了很長時間。它主要是關於我關心的兩個問題,第一個是基於不可微分的部件怎麼做成深度模型,第二是對於整合方法和基於樹的結構,我們有沒有辦法通過引入深度學習的思想把它的效能做的更好。這兩個在機器學習中應該算是比較重要和基本的問題。

AI科技大本營:我們談您的書,現在大家暱稱為西瓜書,我買的時候發行了7萬冊,現在有10萬冊了吧。

周志華:15、16萬左右。

AI科技大本營:那我估計是世界上發行量最大的一本機器學習專著了。這本書您說得很清楚,是一本教材。但是據我所知,還有很大一部分在職工程師甚至技術管理者也在讀。我聽到兩個截然不同的評價。我有一個做計算機視覺的朋友,公司在國內還挺有名氣,他喜歡直接從學校裡面招人,招大三或者研二的優秀學生,拉過來培訓、實習。培訓的時候要講機器學習大基礎課,指定用您的書做教材,效果特別好。他們也跟一些國外的名著做了比較,發現就是西瓜書最好用。這是很好的正面的評價。另外一個評價,我有另一個朋友做移動網際網路,他讓他非常有經驗的工程師買您的書學機器學習,結果這些工程師都叫苦,說看不懂。您怎麼評價這兩個截然不同的反饋?

周志華:這本書主要是希望在較少的篇幅內,以相對輕鬆的方式幫助讀者對機器學習有一個全面的瞭解。

它最主要的用途,一是為初學者瞭解機器學習領域整體的輪廓,知道機器學習裡大概有哪些東西,以便以後根據自己的需求和興趣進一步深入學習,另一個是在讀者閱讀了許多材料之後,對知識體系做一個梳理。其實在機器學習裡面,關於某個具體分支話題的書籍或閱讀材料很多,但是以全面的、沒有學派偏見的方式來介紹機器學習全貌,這樣的讀物不多,這本書算是這個方向的一個努力。

另外,由於著眼點是幫助讀者建立機器學習大局觀,這本書更多的是關於機器學習中的一些“思想”和“道理”,而不是一個演算法速查手冊,為了確保每章篇幅不要太長,不重要的細節會比較簡略。

所以如同我在前言、後記裡面一直強調的,這是一本教科書,老師可以根據學生的情況來決定如何發揮。如果自學的話,建議讀者先不要糾纏在細節上,而是利用本書建立了整體框架之後,根據閱讀材料的指引去做進一步瞭解,然後再回到本書做一個重新梳理。

如果是希望很短的時間內上手,學習使用現有的機器學習演算法、工具去做應用,去解決已經清楚定義好的任務,那麼這本書可能不是最合適的,直接面向速成應用的書可能更合適一些。另外,如果只希望知道一些演算法是怎麼工作的,不關心它為什麼是這樣,那麼這本書可能也不是最合適的,一些演算法速查手冊型別的書更合適。

AI科技大本營:現在類似 Scikit-learn這樣的工具,已經做到了流水線化,把十幾種模型串在一起,跑一晚上,早上起來,哪一個模型最好、哪一組引數匹配效果最佳,就都知道了。您那本書都不用看,看一下線上的手冊就可以上工了,而且其實現在企業還願意為這樣的人付高薪。您覺得這樣的人有什麼問題嗎?

周志華:沒什麼問題,取向不同而已。拿修大樓來打一個比方,建築工人只要能照著現成的圖紙把磚砌好就可以了,建築工地需求量很大的時候,能砌好磚也許就能拿不錯的工資。但有朝一日,你想自己設計大樓,就必須懂得一些思想。現在機器學習方面的人員需求量非常大,遠遠供不應求,所以一些相對低端的事情也可以拿到高薪,但我相信這方面的人員缺口很容易補上,多了之後,企業很自然會需要有更深入理解的人、專家級別的人,而這類人才的缺口補起來就很困難了。

AI科技大本營:那如果我本身是個工程師,有工作,但是也想深入研究一下機器學習,不滿足於就是用用工具,還是希望能夠在這個領域達到一個比較高的水平,做一個有思想的人,有深入理解的人,我該怎麼辦?

周志華:可以先看一些操作型的材料,會用工具,能應付本職日常工作。然後有時間的話,閱讀一些著眼於介紹某幾種常用具體演算法的書。如果還希望進一步理解演算法背後的思想和道理以便融會貫通,那就再進一步閱讀全面介紹機器學習的書籍,我的書在這方面可以作為一個基礎讀物。這樣的學習過程對希望全面建構機器學習知識體系的讀者不是最佳,但是對工程人員,考慮到平時能拿出來的完整時間不多,數理基礎可能也相對生疏了,也許這樣的過程比較可行。

AI科技大本營:您會出視訊教程嗎?

周志華:教學需要因材施教。在課堂上我能看到學生有什麼樣的反應,我才知道下面應該怎麼講。每樣材料都可以有多種闡述方式,要根據學生的反應來調整。視訊上沒法做到。

電腦科學的使命是用計算機去認識和改造世界

AI科技大本營:您在西瓜書的序言裡面寫過,當年在圖書館裡面翻到一本機器學習的書就決定投身機器學習這個行業裡面了。您為什麼當時看了這樣一本機器學習的書就確定這是您的重要方向呢?我相信您不止看了一本書,有很多的方向擺在您面前,您怎麼那麼有先見之明就挑了這麼個未來大熱門?

周志華:那是一本文集,《機器學習:一種人工智慧途徑》,今天一般認為它是關於機器學習的第一本專門文獻。裡面有很多先驅寫的文章。其實這樣的“老讀物”很值得讀,裡面的一些思想即便在今天也很有指導意義。

確實看過很多其他的書,在人工智慧裡面很多分支領域的材料都讀過一些。我很贊同圖靈獎得主Dijkstra的一句話,他說“電腦科學並不僅是關於計算機,就像天文學並不僅是關於望遠鏡”。天文學的研究早期是關注如何建造更好的望遠鏡,但是到了後來,主要是在關注如何“用”望遠鏡開展研究。電腦科學的研究一開始當然也是關注如何“造”計算機,讓計算機更好地運轉,但是未來當然是要關注如何“用”計算機去認識和改造世界。這裡面最重要的無疑是用計算機來對資料進行分析,因為這是計算的主要目的,而這恰好是機器學習的主要用處。

AI科技大本營:您當時就看得這麼清楚了?這很不容易呀,九十年代的電腦科學也是琳琅滿目,您怎麼那麼篤定?那個時候在國內搞機器學習是很孤獨的,一般人很難支援,也需要很大的毅力,你怎麼就那麼篤信一定會起來。

周志華:堅持自己的判斷,做自己認為重要的事吧。