Spark專案學習-慕課網日誌分析-days1-hadoop

阿新 • • 發佈：2018-12-12

1. HDFS架構

1 Master（NameNode/NM）帶 N個Slaves（DataNode/DN)

HDFS/YARN/HBase

1個檔案會被拆分成多個Block

NN：

1）負責客戶端請求的響應

2）負責元資料（檔案的名稱、副本系數、Block存放的DV）的管理

DN：

1）儲存使用者的檔案對應的資料塊（Block）

2）要定期向NN傳送心跳資訊，彙報本身及其所有的block資訊，健康狀況

replication factor:副本系數、副本因子

2. HDFS shell常用命令的使用

1）ls 檢視目錄 fs -ls -R 遞迴檢視

2）get 獲取檔案

3）cat 檢視內容

4）mkdir 建立資料夾 fs -mkdir -p /a/b 建立多個目錄

5）hadoop fs -put hafs.cmd /test/ 複製檔案

6）hadoop fs -text xxx 檢視內容

7）hadoop fs -rmr /a rmr遞迴的刪除

3. HDFS優點

1）高容錯

2）適合批處理

3）適合大資料處理

4）可構建在廉價的機器上

HDFS缺點：

1）低延遲的資料訪問

2）小檔案儲存

4. 分散式計算框架MapReduce（公司裡基本不用了）

1）易於程式設計

2）良好的擴充套件性

3）高容錯性

4）適合海量資料的離線處理

5）將計算向儲存轉移

（1）MapReduce不擅長的場景

1）實時計算；

2）流式計算；（流式計算的特點是無時無刻都在產生資料，但是MapReduce的資料是靜態離線的）

3）DAG計算；（DAG是指任務相互之間存在先後關係的）

（2）NapReduce程式設計模型

1）input

2）map&reduce

3）output

4）過程：首先被分成3個塊，然後逐步處理每行，每行以空格分割，然後map逐個統計個數，形成kv對，然後在reduce中將相同key值得value加起來

5.資源排程框架YARN

（1）YARN產生背景

1）MapReduce1.x存在的問題：JobTracker負責資源管理，任務排程，工作較多：容易發生單點故障

2）資源利用率&運維成本比較高，因為幾個框架Hadoop，spark，MPI不能統一調配

YARN的優點在於，所有的資源管理都是可以由YARN完成的，無論是什麼框架和資料型別，都可以跑在YARN上

（2）YARN架構

由1個RM（Resource Manger） + N個NM（Node Manger）

RM（ResourceManager）的職責：一個叢集active狀態的RM只有一個，負責整個叢集的資源管理和排程

1）處理客戶端的請求（啟動/殺死）

2）啟動、監控ApplicationMaster（一個作業對應一個AM）

3）監控NM

4）系統的資源分配和排程

NodeManager：整個叢集中有N個，負責單個節點的資源管理和使用以及task的執行情況

1）定期向RM彙報本節點的資源使用請求和各個Container的執行狀態

2）接收並處理RM的container啟停的各種命令

3）單個節點的資源管理和任務管理

ApplicationMaster：一個作業對應一個，負責應用程式的管理

1）資料的切分

2）為應用程式向RM申請資源（container），並分配給內部任務

3）與NM通訊以啟停task，task是執行在container中的

4）task的監控和容錯

Container：對任務執行情況的描述：cpu、memory、環境變數等

（3）YARN的執行流程：首先客戶端找到RM，然後RM找到NM，然後NM找到一個AM，並且AM向RM彙報和申請資源，並在對應的NM上啟動，開始作業

1）使用者向YARN提交作業

2）RM為該作業分配第一個container（AM）

3）RM會與對應的NM通訊，要求NM在這個container上啟動應用程式的AM

4）AM首先向RM註冊，然後AM將為各個任務申請資源，並監控執行情況

5）AM採用輪訓的方式通過RPC協議向RM申請和領取資源

6）AM申請到資源以後，便和響應的NM通訊，要求NM啟動任務

7）NM啟動我們作業對應的task

6. 大資料資料倉庫Hive

（1）Hive產生背景

1）MapReduce的程式設計不便性（必須本地編好程式碼，並打包上傳檔案執行

2）HDFS上的檔案缺少Scheme（Scheme是指資料型別資訊，必須學習到Java或者MapReduce相關程式設計技巧）

（2）Hive是什麼

1）由facebook開源的，最初用於解決海量結構化的日誌資料統計問題

2）構建在Hadoop之上的資料倉庫

3）Hive定義了一種類SQL查詢語言：HQL（類似SQL但不完全相同）

4）通常用於進行離線資料處理（採用MapReduce）

5）底層支援多種不同的執行引擎（可以使用spark，Tez，MapReduce，Hive on spark）

6) 支援多種不同的壓縮格式，儲存格式以及自定義函式（壓縮：GZIP,LZO,Snappy,BZIP2;儲存：TextFile，SequenceFile，RCFile，ORC）

（3）為什麼要使用Hive

1）簡單，容易上手（提供類似於SQL查詢語言HQL）

2）為超大資料集設計的計算/儲存擴充套件能力（MR計算，HDFS儲存）

3）統一的元資料管理（可與Presto/Impala（基於記憶體）/SparkSQL等共享資料）意味著建立的表在相互之間可與通用

（4）Hive體系架構

1）最上層：可與通過shell和JDBC等客戶端進行操作，寫SQL語句

2）Driver：首先解析SQL語句,生成邏輯執行計劃，然後進行優化，然後生成物理執行計劃，最後生成執行引擎，提交到MapReduce執行

3）採用HDFS，HBase執行

4）左側是指表格存放在Mysql中

Hive部署架構--生產環境

1)所有元資料管理都放在MySQL中執行

2）Hive在Hadoop上執行

3）具有Active MySQL和Standby MySQL

4）Hive只需要部署一個，因為他只是一個客戶端，用來提交SQL

Hive的基本使用

1）建立表 CREAT TABLE table_name（資料名資料型別）

2）將資料載入 LOAD DATA LOCAL INPATH 'filepath' INTO TABLE tablename

3）查詢語句 select word,count(1) from hive_wordcount lateral view explode(split(context,'\t')) wc as word group by word;

lateral view explode();

Spark專案學習-慕課網日誌分析-days1-hadoop

1. HDFS架構 1 Master（NameNode/NM）帶 N個Slaves（DataNode/DN) HDFS/YARN/HBase 1個檔案會被拆分成多個Block NN： 1）負責客戶端請求的響應 2）負責元資料（檔案的名稱、

Spark專案學習-慕課網日誌分析-days5-Spark on Yarn

1. 概述（1）在Spark中，支援4種執行模式： 1）local:開發時使用 2）standalone：是Spark自帶的，如果一個叢集是Standalone的話，那就需要在多臺機器上同時部署Spa

Spark專案學習-慕課網日誌分析-days4-慕課網日誌分析

一慕課網日誌分析實戰專案 1）使用者行為日誌概述 2）離線資料處理架構（資料如何採集，如何清洗，需求處理，寫入資料庫，視覺化） 3）專案需求 4）功能實現

Spark專案學習-慕課網日誌分析-days2-Spark SQL

1.Spark SQL 概述（1）為什麼需要SQL 1）事實上的標準 2）簡單易學 Hive：類似於sql的Hive QL語言 sql==>mapreduce 特點：基於mapreduce 改進：基於tez spar

Spark專案學習-慕課網日誌分析-days3-External Data Source 外部資料來源

1. External Data Source 外部資料來源 1）每一個spark程式以載入資料開始，以輸出資料結束 2）方便快速的從不同的資料來源（json、parquet/rdbms），經過混合處理，在將處理結果以特定的格式，寫回到

Spark專案學習-慕課網日誌分析-days3-DataFrame&Dataset

1.DataFrame 1）不是Spark SQL提出的，而是早期在R，Pandas中產生的 2）DataFrame是一個以列（列名、列的型別、列值）的形式構成的分散式的資料集，按照列賦予不同的名稱 3）

以慕課網日誌分析為例進入大資料 Spark SQL 的世界

第1章初探大資料本章將介紹為什麼要學習大資料、如何學好大資料、如何快速轉型大資料崗位、本專案實戰課程的內容安排、本專案實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹專案中涉及的Hadoop、Hive相關的知識1-1 導學1-2 -如何學好大資料1-3 -開發環境介紹1-4 -OOTB映象檔案使用介紹1

以慕課網日誌分析為例進入大資料 Spark SQL 的世界 ---課程筆記--未完待續

第一章初探大資料 1、什麼是大資料？大資料特徵：4V 資料量(Volume) PB、EB、ZB 給予高度分析的新價值(Value) 鉅額資料裡面提取需要的高價值資料

以某課網日誌分析為例進入大資料 Spark SQL 的世界

第1章初探大資料本章將介紹為什麼要學習大資料、如何學好大資料、如何快速轉型大資料崗位、本專案實戰課程的內容安排、本專案實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹專案中涉及的Hadoop、Hive相關的知識第2章 Spark及其生態圈概述Spark作為近幾年最火爆的

學習慕課網ES6實戰項目遇到的問題————呱呱二號

bsp pan 遇到 blog images 分享學習 es2017 技術分享看到這個問題之後，應該將scripts.js 這個文件的紅色區域修改饑渴學習慕課網ES6實戰項目遇到的問題————呱呱二號

第9章慕課網日誌實戰

9-1 -課程目錄 9-2 -使用者行為日誌概述為什麼要記錄使用者訪問行為日誌？網站頁面的訪問量網站的粘性推薦使用者行為日誌 Nginx ajax 使用者行為日誌：使用者每次訪問網站時所有的行為資料（訪問、瀏覽、搜尋、點選...) 使用者行為

Spring 學習--慕課網視訊教學

主要是SpringFramework 學習掌握用法：配置註解使用場景用法優劣深入理解：開發帶來的優勢實踐和總結的反覆spring是輕量級的IOC和AOP的容器框架輕量級大小和開銷的消耗低IOC達到鬆耦合的目的AOP分離應用的業務邏輯與系統級服務（在執行下都要用到的東西

spark SQL學習（綜合案例-日誌分析）

日誌分析 scala> import org.apache.spark.sql.types._ scala> import org.apache.spark.sql.Row scala> val logRDD = sc.textFile("hdfs://

python資料分析新手入門課程學習——（二）探索分析與視覺化（來源：慕課網）

一，單因子與對比分析視覺化資料 import pandas as pd df = pd.read_csv('./HR.csv') #檢視前十條資料 df.head(10) 以下為顯示的結果我們可以看出：第一個屬性satisf

python資料分析新手入門課程學習——（一）資料獲取（來源：慕課網）

一、資料獲取手段 1.資料倉庫（DW）：將所有業務資料經彙總處理構成 1）特點：全部事實的記錄；部分維

python資料分析新手入門課程學習——概述（來源：慕課網）

一、流程二、資料分析概述含義與目標：使用統計分析方法，在資料中提取有用的資訊

從慕課網學習 ElasticSearch的專案--搜房實戰

基於ElasticSearch的搜房網實戰一、核心技術 1.ElasticSearch+MySQL+Kafka實現站內搜尋引擎 2.ElasticSearch+百度地圖實現地圖找房功能 3.基礎核心框架=SpringBoot 4.資料庫的常青樹=MySQL+Spring Dat

JavaScript入門--慕課網學習筆記

裏的編寫 .com span 符號代碼格式 www 空白 body JAVASCRIPT—（慕課網）入門篇我們來看看如何寫入JS代碼？你只需一步操作,使用<script>標簽在HTML網頁中插入JavaScript代碼。

個人作業2：網站分析之慕課網

配置一次 adding tar 可能經理不同自己的同方產品名　　慕課網（網站）選擇原因　　　　目前使用比較頻繁的網站，也是程序員必備的一個網站第一部分調研，評測　　1、第一次上手體驗。首頁分類清楚，可以根據課程，職業路徑，還可以使用模糊查詢，根據需

【總結整理】javascript基礎入門學習（慕課網學習）

節點 confirm pro remove prompt 例如 ref 存儲基礎入門 https://www.imooc.com/learn/36 註意: javascript作為一種腳本語言可以放在html頁面中任何位置，但是瀏覽器解釋html時是按先後順序的，所以前面

Spark專案學習-慕課網日誌分析-days1-hadoop

相關推薦