1. 程式人生 > 其它 >大資料發展里程-Hadoop視角

大資料發展里程-Hadoop視角

在Hadoop的視角,總結最近10多年大資料的發展歷程和重要里程碑。

週末查詢了一些大資料相關的資料,今天簡單以Hadoop的視角來總結一下我對大資料發展里程的總結:


2004:Google 發表大資料論文, “三駕馬車”橫空出世

  1. 分散式檔案系統GFS

  2. 大資料分散式計算框架MapReduce

  3. NoSQL 資料庫系統BigTable


2006:Nutch 搜尋引擎分離出Hadoop

Doug Cutting 將大資料相關的功能從Nutch中分離出來

  1. HDFS,分散式檔案儲存

  2. MapReduce,分散式計算引擎、資源排程框架


2007:陸續應用於 雅虎、百度、阿里 等企業

Hadoop 應用於網際網路大廠的大資料儲存與計算


2008Hadoop成為Apache頂級專案

  1. Cloudera成立,運營 Hadoop 的商業公司

  2. Pig(Yahoo 開發) 指令碼語言 轉換為 MapReduce 任務

  3. Hive(Facebook 開發) 用 SQL 轉換為 MapReduce 任務

  4. Cassandra(Facebook 開發) 分散式 NoSQL 資料庫


2011:Hadoop 生態逐步形成

  1. Sqoop資料匯入、匯出工具

  2. Flume日誌分散式 收集、聚合、傳輸

  3. Oozie工作流排程引擎

  4. HBase基於 HDFS 的NoSQL系統

  5. Cassandra分散式 NoSQL 資料庫,逐漸流行


2012Yarn資源排程系統

Spark 開始嶄露頭角:源於 伯克利 AMP 實驗室。

新概念引入:

  1. 批處理計算、大資料離線計算

    • 代表:MapReduce、Spark

  2. 大資料流計算、大資料實時計算

  3. 大資料分析與大資料倉庫

  4. 大資料探勘與機器學習


本次總結粒度比較粗,面相對窄。後續我們繼續