1. 程式人生 > 實用技巧 >Hadoop的介紹以及發展歷史

Hadoop的介紹以及發展歷史

Hadoop的介紹以及發展歷史
在這裡插入圖片描述

  1. Hadoop最早起源於lucene下的Nutch。Nutch的設計目標是構建一個大型的全網搜尋引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴充套件性問題——如何解決數十億網頁的儲存和索引問題。
  2. 2003年、2004年穀歌發表的三篇論文為該問題提供了可行的解決方案。
    ——分散式檔案系統(GFS),可用於處理海量網頁的儲存
    ——分散式計算框架MAPREDUCE,可用於處理海量網頁的索引計算問題。
    ——分散式的結構化資料儲存系統Bigtable,用來處理海量結構化資料。
  3. Doug Cutting基於這三篇論文完成了相應的開源實現HDFS和MAPREDUCE,並從Nutch中剝離成為獨立專案HADOOP,到2008年1月,HADOOP成為Apache頂級專案(同年,cloudera公司成立),迎來了它的快速發展期。
    為什麼叫Hadoop? Logo為什麼是黃色的大象?
    狹義上來說,Hadoop就是單獨指代Hadoop這個軟體(HDFS+MAPREDUCE)
    廣義上來說,Hadoop指代大資料的一個生態圈(Hadoo
    在這裡插入圖片描述