大資料發展歷程

阿新 • • 發佈：2022-05-25

整理自 https://www.bilibili.com/video/BV1tF411479W

小資料時代

OLTP（增刪改）OLAP（查詢）二合一的系統，隨著資料量的增大開始分庫分表。之後大量資料的處理（min max avg ...）不易操作。

大資料

所有資料匯聚到一箇中心儲存，這個中心底層是“分散式”，但向上暴露的介面是“單機”的。這極大程度的降低了資料傳輸、儲存、分析的難度。

歷程：

Hadoop
2006 年出現 Hadoop，其主要包括 1. MR（分散式計算）2. HDFS（分散式儲存）。
使用方法：寫3個函式： map函式、reduce函式、main函式。提交到hadoop叢集由多臺叢集分散式計算。

Hive
2010 年出現，是一個在Hadoop上層的sql翻譯器，將sql語句翻譯為程式碼提交到Hadoop中執行。
Hadoop 2.0
將叢集排程功能從MR中剝離，形成“分散式排程”，即Yarn（Yet Another Resource Negotiator）。Yarn的出現擴充套件了Hadoop生態圈，不光MR，後來的Spark、Flink也能跑在Yarn上。
Yarn
在沒有云的時代，大資料平臺使用Yarn做分散式排程；未來會逐步切換到雲原生（Docker + k8s）
Yarn：管理的是一個個Container，每個Container是一個JVM虛擬機器
k8s：管理的是一個個Docker，每個Docker是一個資源完全隔離的Linux程序

Spark
寫java spark程式碼比寫MR更簡潔方便，spark比MR計算快許多，因為所有中間結果不落地儲存到hdfs，而是儘可能在記憶體中。
Spark SQL
與Hive類似，使用者使用上沒有太大變化，都是寫SQL，底層的計算引擎從MR切換到Spark
pySpark
改寫Java為寫python，降低開發門檻
Spark Streaming
之前的都是批處理計算，這時出現了“偽流式計算”。按照時間間隔把任務分解為一個一個的小型批處理任務，然後不斷向Spark叢集提交任務。
Spark 部署方式
目前主要部署再yarn上，未來會遷移到k8s
Flink
Flink是一種流失計算框架，曾經的流失計算框架Storm已沒落。其與Spark一樣，都支援單機、Yarn、k8s等多種方式部署。
Spark起家於批處理，往流式方向拓展；Flink起家於流式處理，網批處理方向擴充套件。

SQL只會越來越普及，因為它最簡單；MR是過去時，現在基本上都是Spark/Flink；Yarn是現在，未來是k8s

大資料發展歷程

整理自 https://www.bilibili.com/video/BV1tF411479W 小資料時代 OLTP（增刪改）OLAP（查詢）二合一的系統，隨著資料量的增大開始分庫分表。之後大量資料的處理（min max avg ...）不易操作。

大資料發展里程-Hadoop視角

在Hadoop的視角，總結最近10多年大資料的發展歷程和重要里程碑。週末查詢了一些大資料相關的資料，今天簡單以Hadoop的視角來總結一下我對大資料發展里程的總結：

從Hadoop到Spark，大資料技術發展概況

大資料從概念走向落地，得益於大資料技術的成熟，尤其是以Hadoop為代表的第一代大資料系統框架，為大資料在企業當中的現實落地，提供了穩固的技術支援，而隨著大資料的發展，大資料技術也在更新迭代。今天我

大資料技術促進各個行業的發展

大資料技術促進各個行業的發展大資料是近年來特別受重視的一項技術應用，習近平主席在2016年就提出過“建設全國一體化的大資料中心”。我們現在正在處於大資料時代，這項技術在任何行業都會起到重要作用。

華為張平安：發展大資料產業，形成有韌性的資料產業鏈是關鍵

5 月 27 日午間訊息，在“貴州・進而有為華為雲城市峰會暨貴州數字峰會 2021”上，華為公司高階副總裁、華為雲 CEO、消費者雲服務總裁張平安發表演講，這也是他升任華為雲 CEO 後的首次公開亮相。

分享|2021中國大資料產業發展白皮書（附PDF）

# 前言 # “十三五”時期，我國大資料產業取得了突破性的發展。大資料產業規模持續穩步提升,產業價值不斷釋放;大資料相關政策陸續出臺，產業發展環境日益優化;新型資料中心、5G等大資料相關基礎設施部署程序加快;大

粵澳加快科技研發和高階製造，大力發展積體電路、新材料、新能源、大資料、人工智慧等

近日，中共中央、國務院印發了《橫琴粵澳深度合作區建設總體方案》，併發出通知，要求各地區各部門結合實際認真貫徹落實。

可持續發展大資料國際研究中心在北京成立：為全球首個以大資料服務聯合國的科研機構

9 月 6 日訊息據央視新聞，今日，可持續發展大資料國際研究中心在北京成立，這是全球首個以大資料服務聯合國《2030 年可持續發展議程》的國際科研機構。

從大資料技術變遷猜一猜AI人工智慧的發展

目前大資料已經成為了各家網際網路公司的核心資產和競爭力了，其實不僅是網際網路公司，包括傳統企業也擁有大量的資料，也想把這些資料發揮出作用。在這種環境下，大資料技術的重要性和火爆程度相信沒有人去懷疑。而

大資料BI系統是怎麼助力企業長久發展的

多元化集團企業在發展到一定階段後，往往會遇到業務與財務分離、管理缺乏系統決策支援等管理問題。財務決策支援系統建設實施BI是管理升級的內在要求。

從大資料平臺CDP的架構看大資料的發展趨勢

CDP（Cloudera Data Platform）是Cloudera 和 HortonWorks 合併後推出的新一代大資料平臺，並正在逐步停止對原有的大資料平臺 CDH 和 HDP 的維護。筆記目錄：

帶你入坑大資料（一） --- HDFS基礎概念篇

前言從零開始的高併發系列我們已經把 zookeeper 給更新完了，順帶一提之前的zookeeper並沒有結合大資料來進行說明。重新開個坑一方面是一直都想找個理由來總結一下大資料方面的東西，另一方面則是抓住時代的走向吧，

帶你入坑大資料（二） --- HDFS的讀寫流程和一些重要策略

前言前情回顧如果說上一篇是在闡述HDFS最基礎的理論知識，這一篇就是HDFS的主要工作流程，和一些較為有用的策略

帶你入坑大資料（四）--- 資源排程框架Yarn

前言在MapReduce的時候也許很多人會有這種疑問：寫了MR後，map task和reduce task是如何在多節點上並行執行的，而且又是怎麼決定哪個任務執行再哪個節點上的？其實這些問題都是和這個Yarn有關。因為Yarn這個框架其實

帶你入坑大資料（三） --- MapReduce介紹

前言在上一篇文章中我們已經瞭解了HDFS的讀寫流程，HA高可用，聯邦和Sequence Files方案，簡單回顧一下HDFS的寫流程吧

漫畫：大資料的九大應用場景

隨著科技的發展，大資料的應用越來越廣。AI人工智慧是大資料的應用，而大資料也是AI人工智慧的燃料，二者相輔相成。大資料的應用場景有「資料分析預測」、「精準推薦」、「大資料風控」等。你知道下圖的哪個屬於哪種

基於Docker搭建大資料叢集（一）Docker環境部署

本篇文章是基於Docker搭建大資料集群系列的開篇之作主要內容 docker搭建 docker部署CentOS

大資料Elasticsearch之Elasticsearch基本操作

文章目錄 1.索引的基本操作 1.1新建 Index 1.2刪除 Index 1.3新增記錄

從0開始學習大資料之java spark程式設計入門與專案實踐

本文例項講述了大資料java spark程式設計。分享給大家供大家參考，具體如下：

MySQL千萬級大資料SQL查詢優化知識點總結

1.對查詢進行優化，應儘量避免全表掃描，首先應考慮在 where 及 order by 涉及的列上建立索引。

大資料發展歷程

小資料時代

大資料

相關推薦