Hadoop基礎學習：基於Hortonworks HDP

阿新 • • 發佈：2018-11-08

Hadoop基礎學習：基於Hortonworks
HDP

我最開始是通過Hadoop Fundamentals這個課程學習了Hadoop的基礎知識，該課程使用了Hortonworks的HDP作為Hadoop平臺。HDP是一個與Cloudera,
MapR類似的一個企業級Hadoop解決方案，而HDP Sandbox給開發者提供了一個安裝好所有Hadoop元件的虛擬機器，將其匯入到VirtualBox後就可以直接啟動（注意需要給虛擬機器分配至少2G記憶體）。

Big Data和Hadoop

大資料是一個熱門詞彙，而Hadoop可以說是目前大資料處理的基石。大資料並不是說一定要處理特別大規模的資料，而是在於可以在各種資料尺度上找到你要的答案，這些資料包括：使用者資料，機器資料等等。我們可以從基礎設施，

演算法和視覺化等各個方面來理解大資料。

在基礎設施方面，我們有Hadoop的HDFS作為檔案系統，MapReduce來做批處理，此外有HBase，Cassandra，Riak等NoSQL資料庫，還有Kafka，RabbitMQ等訊息中介軟體。在演算法方面，主要是對現有的機器學習演算法的實現。在視覺化方面，常見的有Matplotlib（python語言），R語言，D3（JavaScript語言）。

初步認識HDP

HDP是作業系統是CentOS 6，啟動後除了可以用ssh登陸以外，還可以登陸網頁介面（http://127.0.0.1:8888）。系統預設幫我們安裝的軟體主要包括：

HDFS + MapReduce
Hue
HCatelog
Pig
Hive

HBase預設沒有安裝，啟用HBase的話應該需要給虛擬機器分配更多記憶體。

Hadoop是一個開源的資料分析平臺，它與傳統的資料分析平臺相比當然有很多優點（開源，價效比，擴充套件性等），但是它們本質上並沒有太大不同。一個完整的資料分析平臺需要的元件Hadoop都有涉及：

資料儲存 : HDFS提供一個可擴充套件和容錯的檔案系統
資料處理：MapReduce等提供了的資料訪問和處理模型
資料管理：HCatelog提供資料管理，管理資料到檔案的對映（相當於RDBMS資料庫中管理表結構與表文件的關係）

資料查詢：Pig和Hive對資料檔案的查詢，它們在底層都基於MapReduce模型來處理資料。其中Hive的特點在於提供類似於SQL語言的查詢環境，Pig提供了自己的資料處理語言
系統管理：Zookeeper和Oozie等

通過HDP自帶的教程學習了Hive和Pig的基本知識，HDP自帶了基於Web的Hive和Pig的查詢介面，使用起來比命令列要友好。

Pig指令碼

Pig首先實現了一種ETL語言(PigLatin)，通過使用LOAD，GROUP等系統命令以及自定義命令，可以對資料進行復雜的處理。另一方面，Pig在執行命令時會把命令轉化為MapReduce任務，也就是說對於很多MapReduce操作使用者不再需要使用冗長的Java程式設計=》編譯=》執行流程。最後，Pig也允許使用者實現自定義方法（UDF）來擴充套件功能。

//從檔案中載入資料
batting = load 'Batting.csv' using PigStorage(',');
//讀取檔案中的若干列
runs = FOREACH batting GENERATE $0 as playerID, $1 as year, $8 as runs;
//按照年份劃分資料
grp_data = GROUP runs by (year);
//對劃分後的資料進行進一步處理
max_runs = FOREACH grp_data GENERATE group as grp,MAX(runs.runs) as max_runs;
//連線max_runs和runs，按照指定的兩個列連線，連線的表包括兩表的所有列
join_max_run = JOIN max_runs by ($0, max_runs), runs by (year,runs);
//重新選取部分列
join_data = FOREACH join_max_run GENERATE $0 as year, $2 as playerID, $1 as runs;
dump join_data;

Hive查詢

如果說Pig在傳統資料倉庫的意義上是一種ETL語言（當然Pig的用處不止於此），那麼Hive相當於傳統資料倉庫中的SQL語言。Hive則可以允許你建立表，在表中匯入和處理資料，資料處理的結果可以再儲存到表中。Hive和Pig的詳細比較可以參照這篇文章。

下面這寫Hive命令實現了與前面Pig指令碼一樣的功能。

create table temp_batting (col_value STRING);
LOAD DATA INPATH '/user/hue/Batting.csv' OVERWRITE INTO TABLE temp_batting;
create table batting (player_id STRING, year INT, runs INT);
insert overwrite table batting
SELECT
regexp_extract(col_value, '^(?:([^,]*)\,?){1}', 1) player_id,
regexp_extract(col_value, '^(?:([^,]*)\,?){2}', 1) year,
regexp_extract(col_value, '^(?:([^,]*)\,?){9}', 1) run
from temp_batting;
SELECT year, max(runs) FROM batting GROUP BY year;
SELECT a.year, a.player_id, a.runs from batting a
JOIN (SELECT year, max(runs) runs FROM batting GROUP BY year ) b
ON (a.year = b.year AND a.runs = b.runs) ;

HBase和MapReduce程式設計

HBase是Google的BigTable的一種實現，即面向列的資料庫。HBase相對於Hadoop比較獨立，原因在於：1）HBase不依賴於MapReduce，它可以完全不在HDFS上部署，雖然在生產環境上會推薦部署到HDFS上；2）HBase的程式設計模型也不一定是MapReduce。

HBase和MapReduce程式設計可以參考Hadoop:
The Definitive Guide。

Hadoop的最新發展

Apache Tez，新一代的準實時（near real-time）大資料處理。在Hadoop 2.0的環境下，MapReduce（也就是傳統的Batch程式設計模式）僅僅是其一種實現，而Tez成為了新一代的任務執行引擎，反過來支援MapRecue，Pig，Hive等功能。

Apache Storm，實時資料處理

Apache Flume，流式資料（例如日誌）的處理

Apache Mahout，機器學習演算法庫

Apache ZooKeeper 分散式系統協調服務

Hadoop基礎學習：基於Hortonworks HDP

Hadoop基礎學習：基於Hortonworks
HDP

Big Data和Hadoop

初步認識HDP

Pig指令碼

Hive查詢

HBase和MapReduce程式設計

Hadoop的最新發展

Hadoop基礎學習：基於Hortonworks HDP

Hadoop基礎學習

SQL 基礎學習：和深度學習資料

機器不學習：基於知識圖譜推理的關系推演

21個專案玩轉深度學習：基於TensorFlow的實踐詳解03—打造自己的影象識別模型

分享《21個項目玩轉深度學習：基於TensorFlow的實踐詳解》PDF+源代碼

《21個專案玩轉深度學習：基於TensorFlow的實踐詳解》PDF+原始碼下載

《21個專案玩轉深度學習：基於TensorFlow的實踐詳解》

《21個項目玩轉深度學習：基於TensorFlow的實踐詳解》

分享《21個項目玩轉深度學習：基於TensorFlow的實踐詳解》+PDF+源碼+何之源

《21個項目玩轉深度學習：基於TensorFlow的實踐詳解》PDF+源代碼

tensorflow基礎學習：字元數字驗證碼寫入tfrecord檔案封裝成類

Python基礎學習：類語法規則

Python基礎學習：glob模組

Python基礎學習：tempfile模組

java基礎學習：JavaWeb之Servlet

java基礎學習：JavaWeb之EL表示式

java基礎學習：JavaWeb之Cookie和Session

java基礎學習：JavaWeb之JSP

java基礎學習：JavaWeb之request和response

Hadoop基礎學習：基於Hortonworks HDP

Big Data和Hadoop

初步認識HDP

Pig指令碼

Hive查詢

HBase和MapReduce程式設計

Hadoop的最新發展

相關推薦