資料推動改革促進文明 《智慧時代--大資料和智慧革命重新定義未來》
最近又開始讀《智慧時代--大資料和智慧革命重新定義未來》,這本書是由吳軍博士寫的,目前讀完了第一章,但這篇部落格主要寫的是序言部分,算是我對機器學習和大資料相關知識的一個入門吧,也由此萌生了用通俗的語言寫部落格的想法。我想把看的書,學的知識,都總結下來,寫成部落格,變成一種自己的總結和鍛鍊文筆的機會。
大資料和機器智慧催生了智慧時代。大資料在我的理解看來就是非常多的資料,而機器智慧在我看來就是在慢慢擺脫普通勞動力的基礎上,不斷的讓機器智慧化。那麼什麼是資料呢?文字、圖片、音訊,包括包含其介質的都是資料。在《智慧時代》這本書,回顧了科學研究發展的四個正規化,即描述自然科學現象的實驗科學、以牛頓定律和麥克斯韋方程等為代表的理論科學、模擬複雜現象的電腦科學和今天的資料密集型科學。在牛頓和麥克斯韋時代,他們推匯出的簡潔的公式給出的確定性的規律是由大量觀察資料所驗證的。但其實我是不太能理解那麼多資料怎麼觀察出來的。我們現在處在更復雜的現象,多維度和多變數導致很大的不確定性,還不能用解析式來說明因果關係,但如果從足夠多的資料中發現相關性,也可以把握事物發展的軌跡,因此出來了資料密集型科學。不確定性來自於兩個方面:一是影響世界的變數太多以至於無法用數學模型來描述;二是來自客觀世界本身:不確定性是我們所在宇宙的特性。(這句話我是不理解的,怎麼扯上宇宙的)。因此,用機械論已經完全無法對未來進行預測。
機器智慧革命的發生來自於大資料的積累達到質變的奇點。機器的學習同人類的學習沒有什麼本質的不同。Google的圍棋計算機AlphaGo與世界著名選手李世石對局,4:1獲勝。計算機戰勝人類,是因為計算機獲取智慧的方式和人類不同,它不是靠邏輯推理,而是靠大資料和只能演算法。Google用幾十萬盤圍棋高手之間對弈的資料來訓練AlphaGo,這就是它獲得“智慧”的原因,這是資料方面。計算方面,Google用上萬臺伺服器來訓練AlphaGo下棋的模型,並且讓不同版本的AlphaGo對弈上完盤,才做到最後的成果。在下棋的策略,AlphaGo採用兩個關鍵的技術。第一是把棋盤上當前的狀態變成一個獲勝概率的數學模型,這個模型沒有任何人工規則,就是前面的上萬條資料集訓練起來的。(這個數學模型我知道就是棋盤的各個狀態什麼的做成一個數學模型,但是我還是不算很懂)。第二就是啟發式搜尋演算法--蒙特卡洛樹演算法,將搜尋的空間限制在非常有限的範圍內,保證計算機能夠快速找到好的下法。這些演算法並非專門針對下棋而設計,像它使用的幾十年前機器學習和博弈樹演算法,已經應用在語音識別、機器翻譯、影象識別和大資料醫療等。