大資料發展里程-Hadoop視角
阿新 • • 發佈:2021-08-30
在Hadoop的視角,總結最近10多年大資料的發展歷程和重要里程碑。
週末查詢了一些大資料相關的資料,今天簡單以Hadoop的視角來總結一下我對大資料發展里程的總結:
2004:Google 發表大資料論文, “三駕馬車”橫空出世
2006:Nutch 搜尋引擎分離出Hadoop
Doug Cutting 將大資料相關的功能從Nutch中分離出來
2007:陸續應用於 雅虎、百度、阿里 等企業
Hadoop 應用於網際網路大廠的大資料儲存與計算
-
Cloudera成立,運營 Hadoop 的商業公司
-
Pig(Yahoo 開發) 指令碼語言 轉換為 MapReduce 任務
-
Hive(Facebook 開發) 用 SQL 轉換為 MapReduce 任務
-
Cassandra(Facebook 開發) 分散式 NoSQL 資料庫
2011:Hadoop 生態逐步形成
2012:Yarn資源排程系統
Spark 開始嶄露頭角:源於 伯克利 AMP 實驗室。
新概念引入:
-
批處理計算、大資料離線計算
-
代表:MapReduce、Spark
-
大資料流計算、大資料實時計算
-
代表:Storm、Flink、Spark Streaming
-
大資料分析與大資料倉庫
-
代表:Hive、Spark SQL
-
大資料探勘與機器學習
-
代表:Mahout、MLlib、TensorFlow
本次總結粒度比較粗,面相對窄。後續我們繼續