大資料

大資料（Big Data）

眾說紛紜！

個人認為，大資料中的“大”，不僅僅是涉及資料規模，而且包含“價值“這個層面。其實無非就是大量的資訊罷了，但是我們卻能通過各種手段從這些資訊中提取出我們所需要的東西。

資料分析、資料探勘和推薦系統

資料分析（Data Analysis）

啤酒和尿布這個故事在歐美國家也被傳唱，出現的版本還不盡相同。但對此質疑的聲音也不少，其中有一位叫Daniel J. Power的教授特此撰文，應該是最全面地有理有據揭開這個故事後面的真相。有興趣的人可以詳細閱讀英文全文：What is the "true story" about using data mining to identify a relation between sales of beer and diapers? 主旨內容如下：

這家連鎖店不是沃爾瑪，而是Osco Drugs，一家主要在美國中西部經營的藥房和便利店。該公司於1992年就著手進行資料分析專案，算是資料分析的先驅者。當時的專案收集了來自25家分店、一千兩百多萬個購物車的資訊。

資料的確發現：下午5點到7點之間，客戶購買了啤酒和尿片。商店管理層的確對此發現表示興趣。但現實中，並沒有重新設計商品的擺放，沒有把啤酒和尿布進行捆綁銷售。不過，公司保守地對銷售流程進行了改造，即在正確的時間放正確數量的正確商品。

這就是啤酒和尿片的故事真相，所以，這其實並不是資料分析的好故事。大家對此故事津津樂道，無外乎希望表達：資料分析技術是商業決策的好幫手。

資料分析：就是對資料進行分析，得出一些結論性的內容，用於決策。分析什麼哪？根據分析現狀、分析原因、預測未來。分析現狀和分析原因，需要結合業務才能解釋清楚。用到的技術比較簡單，最簡單的資料分析工具就是 Excel 和 Python 了。預測未來指的是分析未來一段時間的銷售額之類的。在預測未來方面，一般用到資料探勘的技術了。資料分析更多的是指用適當的統計分析方法對收集來的大量資料進行分析，提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支援過程。在實用中，資料分析可幫助人們作出判斷，以便採取適當行動。

資料分析是以輸入的資料為基礎，通過先驗的約束，對資料進行處理，但是不需要對結果做處理，得到任何結果都行。例如你需要影象識別，這個屬於資料分析，你要分析人臉，而資料通過你的先驗的方法，就是出來個貓臉。你的資料分析也沒有問題，你需要的就是默默的承受結果，並且尊重事實。因此資料分析的重點在於資料的有效性、真實性和先驗約束的正確性。

簡而言之：資料分析是對資料的一種操作手段。或者演算法。目標是針對先驗的約束，對資料進行整理、篩選、加工，由此得到資訊。如一份使用者資訊表中，某個使用者的年齡超過了200歲，這種資料明顯就是使用者惡搞的資料，我們一般使用資料分析的手段把這種髒資料剔除掉，而我們不需要關心處理後的資料是什麼樣子的，這就是資料分析中的一種資料預處理手段。

資料探勘（Data Mining）

資料探勘：從字面意思上看，是從資料中挖掘出有價值的資訊。比如，超市通過對一段時間的客戶消費記錄能發現，哪些物品經常被顧客一起購買。那麼，就可以把這些物品擺放的位置近一些，或者一起促銷。在這裡，客戶的消費記錄是“資料” ，“挖掘” 出的資訊是哪些商品經常被一起購買。“價值” 指的是超市可以據此搞促銷，提高超市的銷售額。挖掘出這些有價值資訊的方法就是課程中需要學習的。資料探勘關注的是一些方法如何在商業中應用，並不是純粹的理論和學術。資料探勘涉及到很多的演算法，源於機器學習的神經網路，決策樹，也有基於統計學習理論的支援向量機，分類迴歸樹，和關聯分析的諸多演算法，值得慶幸的是 Python 中的 Scikit-learn庫中提供了以上所有的演算法。資料探勘的定義是從海量資料中找到有意義的模式或知識。

較於資料分析的簡單分析，資料探勘則不同，資料探勘是對資訊的價值化的獲取。價值化自然不考慮資料本身，而是考慮資料是否有價值。由此，一批資料，你嘗試對它做不同的價值挖掘。評估，則就是資料探勘。此時對比資料分析，最大的特點就是，你需要調整你的不同的先驗約束，再次對資料進行分析。而先驗的約束已經不是針對資料來源自身的特點，例如信噪比處理演算法。而是你期望得到的一個有價值的內容，做先驗的約束。以觀測，資料根據這個約束，是否有正確的反饋。也就是說，資料探勘相比較資料分析看重的更是結果，而不看重過程。

舉個例子說明資料分析和資料探勘：你揣著50元去菜市場買菜，對於琳琅滿目的雞鴨魚豬肉以及各類蔬菜，想葷素搭配，你逐一詢問價格，不斷進行統計分析，能各自買到多少肉，多少菜，大概能吃多久，心裡得出一組資訊，這就是資料分析；而關係到你做出選擇的時候就需要對這些資訊進行價值評估，根據自己的偏好，營養價值，科學的搭配，用餐時間計劃，最有價效比的組合等等，對這些資訊進行價值化分析，最終確定一個購買方案，這就是資料探勘。需要注意的是：雖然在此做了這樣的比較，但是資料分析的資料量一般遠遠小於資料探勘。

人工智慧、機器學習、神經網路和深度學習

有人說，人工智慧（AI）是未來，人工智慧是科幻，人工智慧也是我們日常生活中的一部分。這些評價可以說都是正確的，就看你指的是哪一種人工智慧。

今年早些時候，Google DeepMind的AlphaGo打敗了韓國的圍棋大師李世乭九段。在媒體描述DeepMind勝利的時候，將人工智慧（AI）、機器學習（machine learning）、神經網路（neural network）和深度學習（deep learning）都用上了。這三者在AlphaGo擊敗李世乭的過程中都起了作用，但它們說的並不是一回事。

今天我們就用最簡單的方法——同心圓，視覺化地展現出它們三者的關係和應用。

如上圖，人工智慧是最早出現的，也是最大、最外側的同心圓；其次是機器學習，稍晚一點；最內側，是深度學習，當今人工智慧大爆炸的核心驅動。

五十年代，人工智慧曾一度被極為看好。之後，人工智慧的一些較小的子集發展了起來。先是機器學習，然後是深度學習。深度學習又是機器學習的子集。深度學習造成了前所未有的巨大的影響。

從概念的提出到走向繁榮

1956年，幾個電腦科學家相聚在達特茅斯會議（Dartmouth Conferences），提出了“人工智慧”的概念。其後，人工智慧就一直縈繞於人們的腦海之中，並在科研實驗室中慢慢孵化。之後的幾十年，人工智慧一直在兩極反轉，或被稱作人類文明耀眼未來的預言；或者被當成技術瘋子的狂想扔到垃圾堆裡。坦白說，直到2012年之前，這兩種聲音還在同時存在。

過去幾年，尤其是2015年以來，人工智慧開始大爆發。很大一部分是由於GPU的廣泛應用，使得平行計算變得更快、更便宜、更有效。當然，無限拓展的儲存能力和驟然爆發的資料洪流（大資料）的組合拳，也使得影象資料、文字資料、交易資料、對映資料全面海量爆發。

讓我們慢慢梳理一下電腦科學家們是如何將人工智慧從最早的一點點苗頭，發展到能夠支撐那些每天被數億使用者使用的應用的。

人工智慧（Artificial Intelligence）——為機器賦予人的智慧

人工智慧：縮寫是 AI，就是像人一樣的智慧、會思考。人工智慧更適合理解為一個產業，泛指產生更加智慧的軟體和硬體。人工智慧實現的方法就是機器學習，所以談人工智慧技術，實際上就是機器學習的各種演算法的應用。各種智慧家居、智慧機器人都是人工智慧產業的方向。

早在1956年夏天那次會議，人工智慧的先驅們就夢想著用當時剛剛出現的計算機來構造複雜的、擁有與人類智慧同樣本質特性的機器。這就是我們現在所說的“強人工智慧”（General AI）。這個無所不能的機器，它有著我們所有的感知（甚至比人更多），我們所有的理性，可以像我們一樣思考。

人們在電影裡也總是看到這樣的機器：友好的，像星球大戰中的C-3PO；邪惡的，如終結者。強人工智慧現在還只存在於電影和科幻小說中，原因不難理解，我們還沒法實現它們，至少目前還不行。

我們目前能實現的，一般被稱為“弱人工智慧”（Narrow AI）。弱人工智慧是能夠與人一樣，甚至比人更好地執行特定任務的技術。例如，Pinterest上的影象分類；或者Facebook的人臉識別。

這些是弱人工智慧在實踐中的例子。這些技術實現的是人類智慧的一些具體的區域性。但它們是如何實現的？這種智慧是從何而來？這就帶我們來到同心圓的裡面一層，機器學習。

機器學習（Machine Learning）—— 一種實現人工智慧的方法

機器學習：是研究如何讓計算機去學習。學習什麼哪？根據一些過去的事實，學習如何適應新的環境。太小白了，嚴肅點！機器學習，是研究演算法的學科，研究的是如何讓計算機根據以往的經驗去適應新的環境。這裡“以往的經驗” 指的是歷史資料，“適應” 指的是通過歷史資料創造一個很牛逼的函式，“新的環境” 指的是把新的資料輸入到這個函式中，產生一個新的輸出。機器學習本質上是研究自學習演算法的科學，這些演算法是幫助軟體和機器進行自我學習解決問題的演算法。

機器學習最基本的做法，是使用演算法來解析資料、從中學習，然後對真實世界中的事件做出決策和預測。與傳統的為解決特定任務、硬編碼的軟體程式不同，機器學習是用大量的資料來“訓練”，通過各種演算法從資料中學習如何完成任務。

機器學習直接來源於早期的人工智慧領域。傳統演算法包括決策樹學習、推導邏輯規劃、聚類、分類、迴歸、強化學習和貝葉斯網路等等（當然還有很多）。眾所周知，我們還沒有實現強人工智慧。早期機器學習方法甚至都無法實現弱人工智慧。

機器學習最成功的應用領域是計算機視覺，雖然也還是需要大量的手工編碼來完成工作。人們需要手工編寫分類器、邊緣檢測濾波器，以便讓程式能識別物體從哪裡開始，到哪裡結束；寫形狀檢測程式來判斷檢測物件是不是有八條邊；寫分類器來識別字母“ST-O-P”。使用以上這些手工編寫的分類器，人們總算可以開發演算法來感知影象，判斷影象是不是一個停止標誌牌。

這個結果還算不錯，但並不是那種能讓人為之一振的成功。特別是遇到雲霧天，標誌牌變得不是那麼清晰可見，又或者被樹遮擋一部分，演算法就難以成功了。這就是為什麼前一段時間，計算機視覺的效能一直無法接近到人的能力。它太僵化，太容易受環境條件的干擾。

隨著時間的推進，學習演算法的發展改變了一切。

神經網路（Neural network）——機器學習中的一個演算法模型

神經網路：是機器學習中的一個演算法模型，指的是模擬人的神經系統。大家知道，人的神經非常複雜，所以神經網路演算法需要的計算量很大。神經網路在以前一直不溫不火，原因是計算機硬體不足以支撐神經網路的計算量。現在大資料技術的發展，讓神經網路迎來了春天。比如人臉識別、交通領域的車牌識別技術都是神經網路的應用。

深度學習（Deep Learning）——一種實現機器學習的技術

深度學習：屬於神經網路的一個發展分支，指的是層數很多的神經網路，可以簡單理解為更加高階的神經網路。把神經網路比作數學學科，深度學習類似於高等數學。無人駕駛汽車屬於深度學習的典型應用。Python 中，可以使用 TensorFlow2 和 PyTorch庫非常簡單的實現深度學習中的各種演算法。

人工神經網路（Artificial Neural Networks）是早期機器學習中的一個重要的演算法，歷經數十年風風雨雨。神經網路的原理是受我們大腦的生理結構——互相交叉相連的神經元啟發。但與大腦中一個神經元可以連線一定距離內的任意神經元不同，人工神經網路具有離散的層、連線和資料傳播的方向。

例如，我們可以把一幅影象切分成影象塊，輸入到神經網路的第一層。在第一層的每一個神經元都把資料傳遞到第二層。第二層的神經元也是完成類似的工作，把資料傳遞到第三層，以此類推，直到最後一層，然後生成結果。

每一個神經元都為它的輸入分配權重，這個權重的正確與否與其執行的任務直接相關。最終的輸出由這些權重加總來決定。

我們仍以停止（Stop）標誌牌為例。將一個停止標誌牌影象的所有元素都打碎，然後用神經元進行“檢查”：八邊形的外形、救火車般的紅顏色、鮮明突出的字母、交通標誌的典型尺寸和靜止不動運動特性等等。神經網路的任務就是給出結論，它到底是不是一個停止標誌牌。神經網路會根據所有權重，給出一個經過深思熟慮的猜測——“概率向量”。

這個例子裡，系統可能會給出這樣的結果：86%可能是一個停止標誌牌；7%的可能是一個限速標誌牌；5%的可能是一個風箏掛在樹上等等。然後網路結構告知神經網路，它的結論是否正確。

即使是這個例子，也算是比較超前了。直到前不久，神經網路也還是為人工智慧圈所淡忘。其實在人工智慧出現的早期，神經網路就已經存在了，但神經網路對於“智慧”的貢獻微乎其微。主要問題是，即使是最基本的神經網路，也需要大量的運算。神經網路演算法的運算需求難以得到滿足。

不過，還是有一些虔誠的研究團隊，以多倫多大學的Geoffrey Hinton為代表，堅持研究，實現了以超算為目標的並行演算法的執行與概念證明。但也直到GPU得到廣泛應用，這些努力才見到成效。

我們回過頭來看這個停止標誌識別的例子。神經網路是調製、訓練出來的，時不時還是很容易出錯的。它最需要的，就是訓練。需要成百上千甚至幾百萬張影象來訓練，直到神經元的輸入的權值都被調製得十分精確，無論是否有霧，晴天還是雨天，每次都能得到正確的結果。

只有這個時候，我們才可以說神經網路成功地自學習到一個停止標誌的樣子；或者在Facebook的應用裡，神經網路自學習了你媽媽的臉；又或者是2012年吳恩達（Andrew Ng）教授在Google實現了神經網路學習到貓的樣子等等。

吳教授的突破在於，把這些神經網路從基礎上顯著地增大了。層數非常多，神經元也非常多，然後給系統輸入海量的資料，來訓練網路。在吳教授這裡，資料是一千萬YouTube視訊中的影象。吳教授為深度學習（deep learning）加入了“深度”（deep）。這裡的“深度”就是說神經網路中眾多的層。

現在，經過深度學習訓練的影象識別，在一些場景中甚至可以比人做得更好：從識別貓，到辨別血液中癌症的早期成分，到識別核磁共振成像中的腫瘤。Google的AlphaGo先是學會了如何下圍棋，然後與它自己下棋訓練。它訓練自己神經網路的方法，就是不斷地與自己下棋，反覆地下，永不停歇。

深度學習，給人工智慧以璀璨的未來

深度學習使得機器學習能夠實現眾多的應用，並拓展了人工智慧的領域範圍。深度學習摧枯拉朽般地實現了各種任務，使得似乎所有的機器輔助功能都變為可能。無人駕駛汽車，預防性醫療保健，甚至是更好的電影推薦，都近在眼前，或者即將實現。

人工智慧就在現在，就在明天。有了深度學習，人工智慧甚至可以達到我們暢想的科幻小說一般。你的C-3PO我拿走了，你有你的終結者就好了。

小結

綜上，人工智慧就是一個產業，人工智慧的實現手段主要靠機器學習的各種演算法。在機器學習的演算法中，深度學習是一個智慧化程度非常高的演算法。現在雲端計算和大資料技術的發展，讓神經網路和深度學習得以在實際中應用。

大資料時代，資料是企業的最值錢的財富，但海量的資料並非都是有價值的，如何挖掘出有用的資料變成商業價值，就需要機器學習演算法。大資料和機器學習勢必顛覆傳統行業的運營方式，必將驅動公司業務的發展。目前，越來越多的機器學習/資料探勘/深度學習演算法被應用在電商、搜尋、金融、遊戲，醫療等領域中的分析、挖掘、推薦上。

但懂機器學習演算法的人才卻少之又少，物以稀為貴，致使這個行業的工資奇高。

數學很差，能學習機器學習嗎？

機器學習中的各種演算法，都是一個個的數學算式。不會高等數學、概率統計、凸優化等知識，就不能搞透各個數學算式。如果想明白這些算式的來龍去脈，以及如何推匯出來的，沒有前面的數學知識做鋪墊是絕對不可能的。

但是，包括很多公司裡需要招聘員工，培養的是工程師，不是科學家。我們要學習的如何使用這些算式，知道算式中的變數是從哪裡來的，如何傳入，以及變數的變化會對結果有什麼樣的影響。這些算式已經有各種 python 庫可以呼叫了，並不需要我們去寫。

除非是演算法方向側著為主的公司。打個比方吧，公司是駕校，培養的是司機。作為司機不需要了解汽車的內部結構。雖然瞭解汽車的內部結構對於成為一名優秀的司機是非常有好處的。但是市場上需要的是大量的司機，而不是 4S 點的維修工。

所以，數學很差，也可以搞機器學習，不必太擔心。但是，你必須得比別人花更多的努力。
肯定是希望你程式設計基礎又強、數學功底又好啦！

深入機器學習這麼久，如果你不是勵志成為圖靈，我發現學好機器學習靠的不是數學功底、較強的邏輯思維，而是堅韌。

如何稱為一個數據科學家

什麼叫資料科學家？演算法工程師和研發工程師，即搞資料探勘、機器學習、推薦系統的那群人，都可以稱為資料科學家。

你可以通過學習以下東西成為，如果你能看到這裡的話，就一定程度表明你很堅韌了。

數學（基礎）

高等數學、線性代數、概率論，進階可讀：凸優化、離散學

程式語言（基礎）

首選：Python！Python！簡單易懂又優雅
其他：C++、Java、R

演算法和模型（理論）

資料分析、資料探勘、推薦系統、機器學習、自然語言處理、影象識別

開源庫（工具）

單機：Numpy、Pandas、Matplotlib、Scikit-learn、TensorFlow2、PyTorch
分散式：Spark

實操（實踐）

阿里巴巴大資料競賽、Kaggle競賽等

結語

希望我們都能成為“人生硬核玩家”

大資料分析和人工智慧科普

大資料

大資料（Big Data）

資料分析、資料探勘和推薦系統

資料分析（Data Analysis）

資料探勘（Data Mining）

推薦系統（Recommended System）——資料探勘的應用之一

人工智慧、機器學習、神經網路和深度學習

從概念的提出到走向繁榮

人工智慧（Artificial Intelligence）——為機器賦予人的智慧

機器學習（Machine Learning）—— 一種實現人工智慧的方法

神經網路（Neural network）——機器學習中的一個演算法模型

深度學習（Deep Learning）——一種實現機器學習的技術

深度學習，給人工智慧以璀璨的未來

小結

數學很差，能學習機器學習嗎？

如何稱為一個數據科學家

結語

大資料分析和人工智慧科普

大資料分析：將大資料轉化為鉅額資金第四章和第五章

大資料分析平臺工程師和演算法工程師崗位職責：

人工智慧時代大資料分析面臨的最大挑戰！

[DataAnalysis]資料分析和大資料入門推薦書單

當大資料遇上人工智慧，企業轉型需要從基礎能力入手：資料科學平臺kesci科賽網更名為和鯨科技

深度解析資料分析、大資料工程師和資料科學家的區別

大資料分析平臺搭建教程：基於Apache Zeppelin Notebook和R的互動式資料科學

基於關係型資料庫和ES搜尋引擎，實現多源，百億級資料的大資料分析方案

怎麼實現員工和工資大資料分析

怎麼實現員工和工資大資料分析，echarts+js實現

如何選擇適合的大資料分析軟體

NVIDIA針對大規模資料分析和機器學習推出RAPIDS開源GPU加速平臺！

大資料分析學習之路

R語言大資料分析工具的安裝與應用

大資料分析學習筆記（Z檢驗，分類器以及Association Rule）

跟我一起學Spark之——《Spark快速大資料分析》pdf版下載

小象學院大資料分析與資料探勘精華實戰+資料分析資料探勘實戰

一篇文章詳解大資料技術和應用場景

滴滴技術沙龍第1期：聚焦大資料架構和實踐

大資料分析和人工智慧科普

大資料

大資料（Big Data）

資料分析、資料探勘和推薦系統

資料分析（Data Analysis）

資料探勘（Data Mining）

推薦系統（Recommended System）——資料探勘的應用之一

人工智慧、機器學習、神經網路和深度學習

從概念的提出到走向繁榮

人工智慧（Artificial Intelligence）——為機器賦予人的智慧

機器學習（Machine Learning）—— 一種實現人工智慧的方法

神經網路（Neural network）——機器學習中的一個演算法模型

深度學習（Deep Learning）——一種實現機器學習的技術

深度學習，給人工智慧以璀璨的未來

小結

數學很差，能學習機器學習嗎？

如何稱為一個數據科學家

結語

相關推薦