漫畫：什麼是大資料？

阿新 • • 發佈：2018-12-29

大資料是具有海量、高增長率和多樣化的資訊資產，它需要全新的處理模式來增強決策力、洞察發現力和流程優化能力。

Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

大資料通常都擁有海量的資料儲存。僅根據2013年的統計，網際網路搜尋巨頭百度已擁有資料量接近EB級別、阿里、騰訊宣告自己儲存的資料總量都達到了百PB以上。此外，電信、醫療、金融、公共安全、交通、氣象等各個方面儲存的資料量也都達到數十或者上百PB級別。

非IT圈的朋友可能會問，EB和PB是什麼鬼？這裡列出一個計算公式：

1TB = 1024 GB

1PB = 1024 TB

1EB = 1024 PB

目前標配的個人電腦硬碟容量差不多1TB大小。那麼1EB就相當於1024 X 1024 = 1048576 塊硬碟的儲量，足夠讓一輛C-130大力神運輸機往返運輸數十次！

面對這樣規模的資料儲存量，依靠單臺數據庫伺服器顯然是不夠的，需要以分散式檔案系統（例如 HDFS）作為基石。

在傳統的關係型資料庫中，所儲存的資料都是結構化的，例如：

但是在現實生活中，資訊往往並沒有嚴格的結構限制。比如一個電商網站需要記錄如下使用者行為：

使用者張三，於某某時間在商品搜尋欄搜尋了“蘋果手機”一詞，然後進入 XXX 商鋪進行瀏覽，經過與店家溝通，討價還價，最終以6000元的價格購買了 iPhone 7 “鋼琴黑”款式手機一部。

諸如此類的使用者行為資料屬於非結構化資料，很難用關係型資料庫儲存。因此諸多No-SQL資料庫（例如 HBase）成為了儲存大資料的更好選擇。

如果沒有更加快速有效的海量資料解決方案，那麼如此大量多樣的資料不但沒有帶來更多價值，反而成為了系統的負擔。關於這一點，谷歌公司率先提出的MapReduce模型為我們帶來了新的道路。

MapReduce可以簡單的理解成一種分治方法：把龐大的任務分成若干小任務，交給多個節點進行並行處理，然後再把所有節點的處理結果合併起來，從而大大提升了資料處理效率。（關於MapReduce的詳細流程，將會在以後的文章中進行講解。）

人工智慧：

以大資料作為機器學習的訓練集，從而訓練出擁有一定決策能力的人工智慧。典型的代表案例就是谷歌的AlphaGo, 通過大量圍棋棋局的學習，最終擁有了打敗圍棋世界冠軍的能力。

商業分析：

從大量的使用者行為資料中挖掘出有價值的商業資訊。典型代表是著名社交公司LinkedIn，他們通過使用者之間的關聯關係，繪畫出學校、公司、人才之間龐大而複雜的資訊網路。不僅如此，LinkedIn還通過大量求職者和招聘方的資訊，分析出哪些公司正在迅速擴張，哪些公司正在流失人才，哪些公司之間正在展開人才市場的爭奪。這些對於客戶公司來說，都是無價之寶。

犯罪預測：

洛杉磯警察局曾經藉助一套原本用於預測地震後餘震的大資料模型，把過去80年內的130萬個犯罪記錄資料輸入進去，結果發現其預測出的犯罪高發地點與現實驚人的吻合。後來該預測演算法經過改進，已經成為了當地警局重要的參考依據，大大降低了當地的犯罪率。

這裡所介紹的相關知識，只是作者對於大資料領域的淺層次理解。通過這篇漫畫，希望沒有從事過IT行業，或者不瞭解大資料的朋友們能夠對大資料有一些初步的認知。

希望有經驗的朋友們對本文提出寶貴意見，指出其中的紕漏和不足，非常感謝！

打賞支援我寫出更多好文章，謝謝！
打賞作者

漫畫：什麼是大資料？

打賞支援我寫出更多好文章，謝謝！

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（1）

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（2）

讀書印記 - 《智慧時代：大資料和智慧革命重新定義未來》

大資料技術體系1（清華：大資料技術體系）

貨拉拉大資料總監劉幸：大資料&智慧化體系的建立 | 2018FMI人工智慧與大資料高峰論壇（深圳站）

免費下載 | 重磅：大資料標準化白皮書(2018版)正式釋出！

Andrew Ng 機器學習筆記 15 ：大資料集梯度下降

2018年中國程式設計師調查分析：大資料就業前景廣闊

功能釋出：大資料驅動業務決策，CDN實時日誌重磅上線

銷售寶：大資料對財務行業會產生什麼樣的影響？

大家最關心的問題：大資料培訓完一般可以做哪些工作？

京東推薦系統架構揭祕：大資料時代下的智慧化改造

從資料視覺化到分析圖：大資料如何影響建築設計？

mysql優化一：大資料查詢新增索引

我的自學之路：大資料學習路線圖分享

【任務排程系統第一篇】：大資料任務排程框架

從Storm到Flink：大資料處理的開源系統及程式設計模型（文末福利）

年會特輯丨周德銘：大資料驅動政務服務轉型

分享知識-快樂自己：大資料（hadoop）環境搭建

譚安林：大資料在智慧外呼系統的應用

漫畫：什麼是大資料？

打賞支援我寫出更多好文章，謝謝！

相關推薦