Hadoop權威指南(第3版) 修訂版(帶目錄書籤) 中文PDF--高清晰
阿新 • • 發佈:2019-01-27
一、下載地址(永久有效)
二、資料的儲存和分析
我們遇到的問題很簡單:在硬碟儲存容量多年來不斷提升的同時,訪問速度(硬碟資料讀取速度)
卻沒有與時俱進。1990年,一個普通的硬碟可以儲存1370MB資料,傳輸速度為4.4MB/s,因此只需要5分鐘就可以讀完整個硬碟中的資料。20年過去了,1TB硬碟已然成為主流,但其資料傳輸速度約為100MB/s,讀取整個硬碟中的資料至少得話2.5個小時。
讀完整個硬碟中的資料需要更長時間,那寫入資料就不用說了。
因此,我們可以試想,能不能有100個硬碟,每個硬碟儲存1%的資料,並行讀取,如果這樣能做到的話,那麼不到兩分鐘就可以讀完所有的資料。
但這裡會存在一些問題:
1.其中一個硬碟出現故障了怎麼辦?
2.如何考慮分散式硬碟資料的讀取和資料分析的正確性呢?
...
不用擔心這些問題好吧,Hadoop幫我們一一來實現。
三、什麼是Hadoop
簡而言之,Hadoop為我們提供了一個可靠的共享儲存和分析系統。HDFS(Hadoop Distributed FileSysterm)實現資料的儲存,MapReduce(計算由map和reduce兩部分組成)實現資料的分析和處理。雖然Hadoop還有其他功能,但HDFS和MapReduce是它的核心價值。
其餘內容,請自行學習,學習使人快樂!