大資料發展歷史
1、大資料的發展歷程
2008年被《自然》雜誌專刊提出了BigData概念
萌芽階段:
20世紀90年代到21世紀的樣子,資料庫技術成熟,資料探勘理論成熟,也稱資料探勘階段。
突破階段:
2003——2006年,非結構化的資料大量出現,傳統的資料庫處理難以應對,也稱非結構化資料階段。
成熟階段:
2006——2009年,谷歌公開發表兩篇論文《谷歌檔案系統》和《基於叢集的簡單資料處理:MapReduce》,其核心的技術包括分散式檔案系統GFS,分散式計算系統框架MapReduce,分散式鎖Chubby,及分散式資料庫BigTable,這期間大資料研究的焦點是效能,雲端計算,大規模的資料集並行運算演算法,以及開源分散式架構(Hadoop)
應用階段:
2009年至今,大資料基礎技術成熟之後,學術界及及企業界紛紛開始轉向應用研究,2013年大資料技術開始向商業、科技、醫療、政府、教育、經濟、交通、物流及社會的各個領域滲透,因此2013年也被稱為大資料元年。
2、大資料技術的影響
國外:
2010年,美國總統辦公室下屬科學技術顧問委員會和資訊科技顧問向奧巴馬和國會提交《規劃數字化未來》,報告提出”如何收集、儲存、管理、分析、共享正成指數增長的資料是我們面臨的一個挑戰“
2012年3月,奧巴馬簽署併發布”大資料研究發展創新計劃“
2012年7月,聯合國釋出白皮書《大資料促發展:挑戰與機遇》,全球大資料研究進入前所未有的高潮期。
2013年5月,麥肯錫研究院釋出研究報告《顛覆性技術:技術改變生活、商業和全球經濟》並未列入大資料技術,其給出的解釋是,大資料技術已成為其他技術的基石。
國內:
2013年4月14日,中央電視臺邀請維克托.邁爾-舍恩伯格和阿比做客《對話》節目。
2012年中國計算機學會發布《2013年中國大資料技術與產業發展白皮書》
2015年9月,國務院引發了《促進大資料發展行動綱要》
2016年3月17日,國家”十三五“規劃綱要釋出,明確指出大資料發展相關事宜。
3、大資料的重大事件
從2008年開始到至今事件非常多,無論國內還是國外,在此我只舉一例
2012年7月,阿里巴巴的管理層設立首席資料官一職,並推出”聚石塔“資料分享平臺,為淘寶天貓上的電商及電商服務商提供資料雲服務。
4、大資料的概念
概念:難以用常規的資料庫工具獲取、儲存、管理、分析的資料集合。
特徵:
1、資料量大:起始單位是PB級的。
1KB=1024B
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
2、型別多:
結構化、板結構化、非結構化:網諾日誌、音訊、視訊、圖片、地理位置等資訊混雜。
3、價值密度低:
獲取資料的價值就像是淘金一般。
4、速度快時效高:
資料呈指數倍增長,時效性要求高,比如搜尋引擎要求幾分鐘前的新聞能夠被使用者查詢到,個性化推薦演算法儘可能的完成實時推薦。
5、永遠線上:
大資料時代的資料是永遠線上的,隨時應用計算,這也是區別於傳統的資料的最大特徵。
5、大資料從哪來
1、搜尋引擎服務
百度資料量1000PB,每天響應138個國家數十億次請求,每日新增10TB
2、電子商務
3、社交網路
QQ:8.5億使用者,用4400臺伺服器儲存使用者產生的資訊,壓縮後的資料100PB,每天新增200~300TB
4、音視訊線上服務
5、個人資料業務
6、地理資訊資料
7、傳統企業
8、公共機構
智慧城市:攝像頭拍攝的圖片,1080P高清網路攝像機一月產生1.8TB資料,大點的城市50萬個攝像頭,一個月3PB的資料量。
醫療、中國的氣象系統。
6、大資料的挑戰
1、技術挑戰、安全挑戰(黑客攻擊)、運營商(法律缺失)的挑戰。
7、大資料的儲存與計算模式
儲存:
面臨的問題:資料量大、型別複雜(結構化、非結構化、半結構化)
關鍵技術:
1、分散式檔案系統(高效元資料管理技術、系統彈性擴充套件技術、儲存層級內的優化、針對應用和負載的儲存優化技術、針對儲存器件的優化技術)
2、分散式資料庫
事務性資料庫技術:NoSQL:(支援非關係資料庫、具有多個節點分割和複製資料的能力、用最終一致性機制解決併發讀操作與控制問題、充分利用分散式索引及記憶體提高效能)代表有:BigTable、HBase、MongoDB、Dynamo。
分析型的資料庫技術:Hive 、Impala
3、大資料索引和查詢技術
4、實時流式大資料儲存與處理技術
計算:
面臨的問題:資料結構特徵、平行計算(以分散式檔案為基礎的Hadoop\以分散式記憶體快取為基礎的Spark)、資料獲取(批處理\流處理)、資料處理型別(傳統查詢\資料探勘分析計算)、實時響應效能、迭代計算、資料關聯性(先map一下再reduce一下)。
關鍵技術:
1、大資料查詢分析計算模式與技術:HBase、Hive、Cassandra、Impala
2、批處理計算:Hadoop MapReduce、Spark
3、流式計算:Storm、Spark Steaming
4、圖計算:Giraph、GraphX
5、記憶體計算:Spark、Hana(SAP公司全記憶體式分散式資料庫系統)、Dremel
8、應用領域
1、智慧醫療(臨床資料、公共衛生資料、移動醫療健康資料)(共享疾病案例,基因分類參考)
2、智慧農業(主要指依據商業需求進行農產品生產,降低菜殘傷農概率)
3、金融行業:
精準的營銷:根據可與習慣進行推銷
風險管控:根據使用者的交易流水實施反欺詐
決策支援:抵押貸款這一塊,實施產業信貸的風險控制。
效率提升:加快內部資料處理。
產品設計:根據客戶的投資行為設計滿足客戶需求的金融產品。
4、零售行業(對零售商來說:精準營銷(降低營銷成本,擴大營銷額);對廠商:降低產品過剩)
5、電子商務行業
6、電子政務