補交2,4,5,7
02
1、安裝Linux作業系統
2、安裝關係型資料庫MySQL
3、安裝大資料處理框架Hadoop,檢視IP
04
1.用圖與自己的話,簡要描述Hadoop起源與發展階段。
Hadoop最早起源於lucene下的Nutch。Nutch的設計目標是構建一個大型的全網搜尋引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴充套件性問題——如何解決數十億網頁的儲存和索引問題。
2003年、2004年穀歌發表的三篇論文為該問題提供了可行的解決方案。
——分散式檔案系統(GFS),可用於處理海量網頁的儲存
——分散式計算框架MAPREDUCE,可用於處理海量網頁的索引計算問題。
——分散式的結構化資料儲存系統Bigtable,用來處理海量結構化資料。
Doug Cutting基於這三篇論文完成了相應的開源實現HDFS和MAPREDUCE,並從Nutch中剝離成為獨立專案HADOOP,到2008年1月,HADOOP成為Apache頂級專案(同年,cloudera公司成立),迎來了它的快速發展期。
Hadoop的歷史版本
0.x系列版本:Hadoop當中最早的一個開源版本,在此基礎上演變而來的1.x以及2.x的版本
1.x版本系列:Hadoop版本當中的第二代開源版本,主要修復0.x版本的一些bug等
2.x版本系列:架構產生重大變化,引入了yarn平臺等許多新特性
2.用圖與自己的話,簡要描述名稱節點、資料節點的主要功能及相互關係、名稱節點的工作機制。
、HDFS 採用主/從架構,主節點即NameNode 從節點即:DataNode
2、NameNode即是模式, 並完成外模式和模式之間的映像,模式和內模式之間的映像。
3、NameNode存放HDFS全域性名稱空間,充當全域性資料目錄;儲存全域性檔案系統樹,目錄-檔案-檔案塊資訊
NameNode存放的資料塊資訊是在啟動時掃描所有資料節點重構;
在執行過程中週期性受到資料節點發送的資料塊列表資訊重構而得;
4、在客戶端讀取資料過程中,將資料塊和資料節點對映按遠近排序列表傳送給客戶端;
5、在客戶端寫資料過程中,檢查檔案是否存在、是否有許可權;將待寫入檔案分成若干檔案塊,並根據資料節點的繁忙和磁碟容量程度,分配資料塊和資料節點對應關係列表反饋給客戶端;
6、HDFS檔案塊預設是64M,普通檔案塊的大小為521位元組;
相互關係:
名稱節點管理檔案系統的名稱空間。它維護著這個檔案系統樹及這個樹內所有的檔案和索引目錄。這些資訊以兩種形式將檔案永久儲存在本地磁碟上:名稱空間映象和編輯日誌。名稱節點也記錄著每個檔案的每個塊所在的資料節點,但它並不永久儲存塊的位置,因為這些資訊會在系統啟動時由資料節點重建。
名稱結點的工作機制:
名稱節點啟動時,會將FsImage的內容載入到記憶體當中,然後執行EditLog檔案中的各項操作,使得記憶體中的元資料儲存最新。這個操作完成後,就會建立一個新的FsImage檔案和一個空的EditLog檔案。名稱節點啟動成功並進入正常執行狀態以後,HDFS中的更新操作都會被寫入到EditLog,而不是直接寫入FsImage
05
07
1.理解HBase表模型及四維座標:行鍵、列族、列限定符和時間戳。
2.啟動HDFS,啟動HBase,進入HBaseShell命令列。
3.列出HBase中所有的表資訊list
4.建立表create
5.查看錶詳情desc
6.插入資料put
7.查看錶資料scan,get