1. 程式人生 > >Hadoop權威指南(第3版) 修訂版(帶目錄書籤) 中文PDF--高清晰

Hadoop權威指南(第3版) 修訂版(帶目錄書籤) 中文PDF--高清晰

一、下載地址(永久有效)

二、資料的儲存和分析

我們遇到的問題很簡單:在硬碟儲存容量多年來不斷提升的同時,訪問速度(硬碟資料讀取速度)

卻沒有與時俱進。1990年,一個普通的硬碟可以儲存1370MB資料,傳輸速度為4.4MB/s,因此只需要5分鐘就可以讀完整個硬碟中的資料。20年過去了,1TB硬碟已然成為主流,但其資料傳輸速度約為100MB/s,讀取整個硬碟中的資料至少得話2.5個小時。

讀完整個硬碟中的資料需要更長時間,那寫入資料就不用說了。

因此,我們可以試想,能不能有100個硬碟,每個硬碟儲存1%的資料,並行讀取,如果這樣能做到的話,那麼不到兩分鐘就可以讀完所有的資料。

但這裡會存在一些問題:

1.其中一個硬碟出現故障了怎麼辦?

2.如何考慮分散式硬碟資料的讀取和資料分析的正確性呢?

...

不用擔心這些問題好吧,Hadoop幫我們一一來實現。

三、什麼是Hadoop

簡而言之,Hadoop為我們提供了一個可靠的共享儲存和分析系統。HDFS(Hadoop Distributed FileSysterm)實現資料的儲存,MapReduce(計算由map和reduce兩部分組成)實現資料的分析和處理。雖然Hadoop還有其他功能,但HDFS和MapReduce是它的核心價值。

其餘內容,請自行學習,學習使人快樂!