被神話的大資料——從大資料(big data)到深度資料(deep data)思維轉變
自從阿法狗戰勝人類頂級棋手之後,深度學習、人工智慧變得再一次火熱起來。有些人認為,深度學習的再一次興起是源於硬體的提升、資料量的增多以及高效演算法的研究。這並不完全精確,有一個基本的誤解是更大的資料會產生更好的機器學習結果。然而,更大的資料池/倉庫並不一定有助於模型學習到更深刻的見解。正確的答案是,要把重心專注於資料的質量、價值以及多樣性,而不僅僅是資料的規模——“深度資料”(deep data)比大資料(big data)好。
隨著研究的進行,人們對大資料的炒作逐漸在減弱。雲端計算、Hadoop及其變種已經能夠解決一些大資料的問題。但是“大資料”是指許多人仍在花費大量資金建設更大的基礎設施來處理、儲存和管理的龐大資料庫。這種盲目追求“大”的做法,在基礎設施和人力資源方面產生了巨大的、且本可避免的成本。
目前,越來越多的聲音討論是否從“大資料”轉向為“深度資料”了,我們現在需要更加的明智和思考全面,而不是收集所有可能的資料來實現“大資料”。我們現在需要讓一些資料落實到位,並尋求數量和質量的多樣性,這將給我們帶來許多長期的收益。
被神話的大資料
要理解從“大”到“深”的這種轉變,讓我們首先看一下我們對大資料的一些錯誤觀念:
- 可以並且應該捕獲和儲存所有資料;
- 更多資料總是有助於構建更準確的預測模型;
- 儲存更多的資料,其儲存成本幾乎為零;
- 更多資料的計算成本幾乎為零;
以下是現實:
- 來自物聯網和網路流量的資料仍然超過了我們目前具備的捕獲所有資料的能力。有些資料必須在攝取時被丟棄。我們需要變得聰明,這就需要我們根據價值對資料進行分類;
- 重複一千次的相同資料示例並不會提高預測模型的準確性;
- 儲存更多資料的成本不僅僅是網路服務向用戶收取的費用(比如雲盤),這也是查詢和管理多個數據源的額外複雜性以及員工移動和使用該資料的隱藏代價,這些成本通常高於儲存和計算費用。
- 人工智慧演算法對計算資源的需求甚至可以快速超越彈性雲基礎設施。雖然計算資源可以線性增長,但計算需求可以超線性增長,甚至指數級增長。
相信這些神話的問題在於,我們將以一種在紙上或長期看來都很好的方式構建資訊系統,但在即時時間框架內過於繁瑣,無法發揮作用。
大資料的四個問題
以下是在資料方面盲目相信“越多越好”時存在的四個問題:
- 更多相同的資料是沒有作用的。為人工智慧構建機器學習模型時,訓練示例的多樣性至關重要,原因是模型是根據資料來試圖確定概念邊界。例如,如果模型試圖通過使用年齡和職業來定義“退休工人”的概念,那麼32歲的註冊會計師的重複示例對該模型並沒有什麼好處,因為它們表示的含義都是沒有退休。在65歲的概念邊界獲得示例並瞭解退休如何隨職業而變化對模型會更有幫助;
- 嘈雜的資料可能會傷害模型。如果新資料中存在錯誤或者不精確,那麼它只會混淆模型試圖學習的兩個概念之間的界限。在這種情況下,更多的資料將無濟於事,實際上可能會降低現有模型的準確性;
- 大資料讓一切都變慢了。在數TB的資料上構建模型可能比在數GB的資料上構建模型花費一千倍的時間,或者它可能需要一萬倍的時間,這都取決於學習演算法。資料科學就是快速實驗,快速實驗,快速更新以獲得較為合適的模型;
- 大資料可實現的模型。任何預測模型的最終目標都是建立一個可以為業務部署的高度準確的模型。有時使用來自資料池深處更加模糊的資料可能會導致更高的準確性,但所使用的資料對於實際部署可能是不可靠的。最好有一個不太準確的模型,它可以快速執行並可供企業使用。
能做得更好的四件事
以下是我們可以採取的一些措施來對抗大資料的“黑暗面”,並將大資料思維轉向深度資料思維:
- 瞭解準確性/執行權衡。資料科學家常常認為目標是獲得更準確的模型。而是要根據準確性和部署速度,以明確的ROI預期啟動專案;
- 使用隨機樣本構建每個模型。如果你的資料集足夠大,那麼你就沒有理由一次性全部使用整個資料集。如果資料集具有良好的隨機抽樣功能,那麼我們就可以使用來自大資料集中的小樣本構建模型,並進行準確預測。小樣本使得模型迭代更新更加快速,然後使用整個資料庫構建最終模型。
- 丟棄一些資料。如果對來自物聯網裝置和其他來源的資料流感到不知所措,那麼就可以聰明地隨意丟棄一些資料。這個方法適合於構建模型的早期階段,如果到後期的話,這樣操作會使得後期工作一團糟。
- 尋找更多的資料來源。人工智慧最近的許多突破並非來自更大的資料集,而是源於機器學習演算法利用到了以前無法獲得資料的能力。例如,二十年前,現在普遍存在的大型文字、影象、視訊和音訊資料集在那個時代並不存在,因此,我們應該不斷尋找產生這些新的資料的機會。
變得更好的四件事
如果我們轉換思路,專注於深度資料而不僅僅是大資料,這樣將享受到以下這些好處:
- 一切都會變得更快。使用較小的資料,對資料進行移動、實驗、訓練和模型評估都會快得多;
- 需要更少的儲存和計算資源。專注於深度資料意味著我們將更加智慧地使用更小的磁碟並通過雲端計算,這樣會直接降低基礎設施的成本,節省下來的資金就可以聘請更多資料科學家和人工智慧專家;
- 減輕研究人員的壓力並變得更加快樂。在有了深度資料思維後,團隊將發現自己不太可能只是做一些打雜工作,比如製作資料集或者殺死那些佔用所有云資源的錯誤程式等。同樣,資料科學家也會花更多的時間在構建和測試模型上,而不是被資料移動或等待長時間的訓練過程,這樣也會使其變得更快樂。
- 可以解決更難的問題。構建一個人工智慧模型並不是一個只有像巫師一樣的研究人員才能完成的神奇體驗。與其說人工智慧是魔法,不如說是一種邏輯。這類似於一個藝術老師告訴他班上一半的學生,他們的分數將基於他們製作的藝術作品的數量,另一半的學生將根據他們最好的作品的質量來評分。毫不奇怪,學生創作的藝術品數量會大大增加。令人震驚的是,在產量增多的同時,高品質的產品也會出現——數量有時會產生質量。在我們的例子中,在相同資源約束下嘗試的更多模型可能意味著更好的最佳模型。
大資料和支援它的技術突破極大地促進了許多公司在決策過程中成為資料驅動的動力。隨著人工智慧的興起以及處理這些強大資源的能力,現在需要更加精確地根據我們的資料需求建立一種理解深度資料的思維,而不僅僅是大資料。
作者資訊
Stephen Smith,資料科學
本文由阿里云云棲社群組織翻譯。
文章原標題《4 Myths of Big Data and 4 Ways to Improve with Deep Data》,譯者:海棠,審校:Uncle_LLD。
文章簡譯,更為詳細的內容,請檢視原文。