Hadoop入門

阿新 • • 發佈：2017-07-03

hadoop mapreduce hdfs

MapReduce&HDFS簡介

一、Hadoop簡介:

結構化數據：表,關系型數據庫//有嚴格的約束

半結構化數據：html,json,yaml,有元數據// 有約束，缺少嚴格的約束

非結構化數據：沒有預定義的模型,元數據 //日誌數據等

搜索引擎：搜索組件、索引組件

網絡爬蟲：爬到的內容多為半結構化或者非結構化數據

構建倒排索引[基於精確搜索或模糊搜索基於相關度匹配]存儲到存儲系統[非RDBMS]中。

2003年：The Google File System//google如何實現文件存儲，不支持對數據進行隨機和實時訪問，僅適用於存儲少量的體積巨大的文件。

假如爬到html頁面發生了改變，需要修改。則goole fs無法滿足該需求

2004年：MapReduce： simplified Data Precessing On Large Cluster//MapReduce編程模型，一個任務分布在各個節點上運行，後收集結果

2006年：BigTable: A Distributed Storage System for Structure Data //存儲結構化數據的分布式存儲

GFS->山寨後HDFS：

MapReduce->MapReduce:

BigTable->HBase:

HDFS + MapReduce = Hadoop //作者兒子的一個玩具

HBase：hadoop 的database

Nutch:一個網絡爬蟲程序，為Lucene爬取數據

Hadoop的一個缺陷：MapReduce是批處理程序，

HDFS采用的是有中心節點的存儲格式

client

元數據節點

===========================

node1 node2 node3 node n

1 1‘ 2 2’

數據查詢過程：client->元數據節點[數據分布在哪些節點上]-->[node 1,2,3,,n]-->client 用戶查詢[寫代碼]-->先調用MapReduce的開發框架-->交由該框架運行

Map:該代碼需要分別運行在node1和node2上，各節點分別處理自己所用的那一部分

//node1擁有1，node2擁有2

Reduce:最後要把node1和node2上的運行結果進行合並

最終速度：取決於速度最慢的 node

MapReduce:

1.開發API

2.運行框架

3.提供運行時環境

NAS和SAN的缺點：存儲系統只有1個，面對海量數據，需要進行數據存取，磁盤IO和網絡IO將面臨極大挑戰

因此出現了分布式存儲

二、HDFS和MapReduce

1.無中心節點

2.有中心節點HDFS //元數據節點是瓶頸和核心所在。//GFS,HDFS,

元數據節點:NN: name node //HA,內存數據持久化。他的數據都是存儲在內存中的

//事務日誌，寫入到持久存儲後，宕機後，重新加載，減少丟失的數據。

後端主機要保證：服務可用+數據可用 //DN:data node

在宕機後回可能需要文件系統檢測，數據量過大時，需要浪費大量時間。

//簡單的說：一旦NN崩潰，再次啟動需要半個小時，因為hadoop 1.X NN不支持HA

SNN:second namenode後期提供，

NN需要在內存中不斷更新數據，寫入日誌，日誌和映像文件合並等

SNN:負責合並數據，假如NN崩潰SNN加載共享存儲的文件，自己工作。

節省了時間，但是文件系統檢測需要的時間，依然沒有少。只是不用立即修復NN

LB:對不同的請求，分發到不同的主機

client

NN--SNN

[鏡像][SHM]

===========================

node1 node2 node3 node n

1 1‘ 2 2’

HDFS 2.0之後的NN可以高可用

元數據不再存放到本地存儲，而是存儲到一個共享存儲存放，基於內存完成元數據存放。

例如：NFS[腦裂]不常用，ZooKeeper

NN1和NN2的更新操作都向ZooKeeper同步，因此每一個節點都可以從ZooKeeper獲取同樣的數據。

//zookeeper:分布式協調工具(分布式鎖)，google的Chubby(不開源)

http://www.cnblogs.com/wuxl360/p/5817471.html //參考網站

數據節點：存放各個chunk的

每個數據存儲副本：存儲到其他節點。默認存儲3個副本。

存儲的時候，之存儲一個，由HDFS另找兩個節點進行存儲。

每一個存儲node會向服務node周期報告自己所存儲的數據塊信息+自身狀態信息。

NN有兩個表：

1.以數據為中心，分布在哪些節點上

2.以節點為核心，持有哪些數據塊

數據如何處理：//運行程序的集群

MapReduce：集群方式工作。

Map:分散運行

Reduce：合並

一個任務可以分為幾個Map，由MapReduce的框架進行控制的。

需要一個總的節點，進行調度 JobTracker

理想情況：讓擁有請求數據的node都運行任務 //但是有的node可能已經很忙了

假如擁有數據的node繁忙解決方案：

1.等待

2.找副本所在節點 //可能副本節點也比較忙

3.找一個空閑的節點，運行任務。//可能需要復制副本到該空閑node

對於HDFS來說

Hadoop和MapReduce共用的數據節點

client

JobTracker

===========================

node1 node2 node3 node n

1 1‘ 2 2‘

//只是這些節點，不再叫做Data Node而稱為Task Tracker,

這些node需要運行兩類進程：DataNode /Task Tracker //負責數據的存儲和處理

因此一個Hadoop就是兩類集群的結合：存儲數據和處理數據使用的是同一個類節點

三、數據處理模型

程序運行node把數據加載到程序所在node 進行運行 //數據向程序靠攏

Hadoop以數據為中心，讓程序到數據所在節點上運行 //程序向數據靠攏

JobTracker和Name node的工作是不沖突的，因此可以部署在同一個節點上

[JobTracker/NameNode]

=====================================================================

taskTracker/DataNode1 taskTracker/DataNode2 taskTracker/DataNode3 ...

每個人提交的任務，不一定是運行在所有節點上的，很有可能是運行在幾個節點上的

可以限制一個node最多可以運行多少個任務。

四、函數式編程：

Lisp：ML函數式編程語言：高階函數；

map,fold

map:把一個任務映射為多個任務

fold:折疊

示例:map(f()} //map將把f函數運行為多份，分別運行在多個節點上。

map：接受一個函數為參數，並將其應用於列表中的所有元素;

示例列表為：1,2,3,4,5

要獲取每個人age，分別在1,2,3,4,5上執行

例如map後的結果為：22,33,44，12，34

fold:接受兩個參數 1:函數，2:初始值

fold(g(),init) //

把第一個的處理結果替換為init，然後使用g()和第一個的處理結果處理第二個數據，依次輪推

示例：22,33,44,12,34 // fold(g(1),init)=>foldg(g(2) 22)=>fold(g(g3),33),...

最後找出最大者。

MapReduce: //任何一個程序調用該APi之後，被分成兩段

mapper：在task tracker上運行的一個實例，最後生成一個結果列表

reducer:從mapper得到的多個結果中

統計一本書中每個單詞出現的次數：

mapper:每100頁一個單位，5個mapper用於拆分成為單詞;進行計數

例如拆成了10000個單詞，其中不乏有重復的

mapper需要保證重復的單詞發送給同一個reducer

稱為:shuffle and sort //傳輸排序的過程

reducer

reducer1，reducer2//啟動了兩個reducer，mapper輪流發送給reducer1和2，重復的發送給同一個reducer，保證每個reducre統計的單詞是不一樣的

最後合並

reducer1：

this：500

is：10

reducer2：

how: 30

do: 20

兩者合並以後成為結果

MapReducer統計的對象數據都是key-value數據，不是kv數據需要先轉換為kv數據

mapper://轉換為kv數據

this 1,is 1, this 1,how 1 //出現一次標記為1

同一個鍵的數據只能發往同一個reducer

reducer: //也是kv數據

例如把this 對應的所有value相加

this：500

is：20

mapper-reducer可能需要執行多次，才能達到結果，只是每次的目標不同而已。

也可以直接在mapper上統計本地的數據，再發送給reducer的時候

this：500

is：20

//reducer可以和mapper一起啟動，或者reducer在mapper之後運行

相同的key發送給同一個reducer：誰來保證

由mapper reducer的框架決定的，//啟動幾個reducer是由程序員定義的

MapReduce:

1.開發API

2.運行框架

3.提供運行時環境

Hadoop能夠實現並行處理，

HDFS + MapReduce = Hadoop

調用MapReduce API的程序

[NameNode] [JobTracker]

|| ||

=====================================================================

taskTracker/DataNode1 taskTracker/DataNode2 taskTracker/DataNode3 ...

Hadoop典型應用有：搜索、日誌處理、推薦系統、數據分析、視頻圖像分析、數據保存等

圖1：MapReduce框架

技術分享

五、MapReduce工作模型

MapReduce:工作模型

==================================================================================

[k1|m] [k2|n] [k3|r] [k4|s] [k5|m] [k6|t] [k7|m]

\ / | \ / \ /

[mapper] [mapper] [mapper] [mapper]

| | | |

V V V V

[ik1|3] [ik3|1] [ik1|6] [ik3|2] [ik1|1] [ik1|4] [ik2|3] [ik2|6]

【partitioner】【partitioner】【partitioner】【partitioner】

+++++++++++++++++++++++++++++++++++++++++++++++++

// Shuffle & sort. aggressive values by keys //

++++++++++++++++++++++++++++++++++++++++++++++++

[ik1|3,6,1,4] [ik2|3,6] [ik3|1,2]

| | |

V V V

reducer reducer reducer

| | |

V V V

[ok1|14] [ok2|9] [ok3|3]

====================================================================================

//mapper:讀取鍵值對，生成鍵值對

//combiner：負責在mapper之後，在mapper上把相同的鍵進行合並，僅此而已，輸入和輸出的鍵必須一致。

//partitioner:負責分發同一個key到同一個reducer，所有的partioner都是一樣的

生成的鍵值如何進行發送，由partitioner決定。

==================================================================================

[k1|m] [k2|n] [k3|r] [k4|s] [k5|m] [k6|t] [k7|m]

\ / | \ / \ /

[mapper] [mapper] [mapper] [mapper]

| | | |

V V V V

[ik1|3] [ik3|1] [ik1|6] [ik3|2] [ik1|1] [ik1|4] [ik2|3] [ik2|6]

【combiner】【combiner】【combiner】【combiner】

| | | |

V V V V

[ik1:3][ik3:1] [ik1:6][ik3:2] [ik1:5] [ik2:9]

【partitioner】【partitioner】【partitioner】【partitioner】

++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

// Shuffle & sort. aggressive values by keys //

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++

[ik1|3,6,1,4] [ik2|3,6] [ik3|1,2]

| | |

V V V

reducer reducer reducer

| | |

V V V

[ok1|14] [ok2|9] [ok3|3]

====================================================================================

//combiner和partitioner都是由程序員寫的

Maper啟動的節點：可能沒有一個目標分片，但是需要處理n個分片，需要從其他node復制分片到該節點執行Maper程序

Hadoop入門

hadoop mapreduce hdfs MapReduce&HDFS簡介一、Hadoop簡介: 結構化數據：表,關系型數據庫//有嚴格的約束半結構化數據：html,json,yaml,有元數據// 有約束，缺少嚴格的約束非結構化數據：沒有預定義的模型,元數據 //日誌數據等搜索

hadoop入門學習系列之六hadoop學習之sqoop安裝

1.7 sqoop安裝 opc 2.6 clas jdb -m -- error 1.下載安裝包及解壓 tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2.配置環境變量和配置文件 cd 到 sqoop

hadoop入門之使用hadoop

dfs mat format 啟動初始化格式 bin 變量 ado 首先啟動：第一個啟動初始化先hdfs格式化 bin 目錄下的 hadoop指令使用(上篇的最後已經添加到環境變量中去了,修改完一定接的source一下！！！！)

hadoop入門筆記MapReduce Shuffle簡介（五）

單位海量數據並行處理詳細但是信息不能 utf 適合 1. MapReduce 定義　　Hadoop 中的 MapReduce是一個使用簡單的軟件框架，基於它寫出來的應用程序能夠運行在由上千個商用機器組成的大型集群上，並以一種可靠容錯式並行處理TB級別的數據集

hadoop入門筆記MapReduce簡介（三）

today 信息編程模型 cut 大型狀態參數 dfs 好處 . MapReduce基本編程模型和框架 1.1 MapReduce抽象模型大數據計算的核心思想是：分而治之。如下圖1所示。把大量的數據劃分開來，分配給各個子任務來完成。再將結果合並到一起輸出。註：如果

Hadoop入門實驗

所在 ash 文件復制技術分布式 release ide 模擬原理一、實驗目的了解Hadoop的MapeReduce工作原理二、實驗內容實現基於單機的偽分布式運行模擬三、實驗需要準備的軟件和源 1、Jdk1.6以上下載地址：http:

大數據：Hadoop入門

共享文件 x64 評估 apache 配置屬性。關系趨勢 roo 大數據：Hadoop入門一：什麽是大數據什麽是大數據：（1.）大數據是指在一定時間內無法用常規軟件對其內容進行抓取，管理和處理的數據集合，簡而言之就是數據量非常大，大到無法用常規工具

Apache Hadoop 入門教程第四章

大數據 hadoop 運行在單節點的 YARN 您可以通過設置幾個參數，另外運行 ResourceManager 的守護進程和 NodeManager 守護進程以偽分布式模式在 YARN 上運行 MapReduce job。以下是運行步驟。（1）配置 etc/hadoop/mapred-site.

Apache Hadoop 入門教程第二章

大數據 hadoop Apache Hadoop 單節點上的安裝配置下面將演示快速完成在單節點上的 Hadoop 安裝與配置，以便你對 Hadoop HDFS 和 MapReduce 框架有所體會。先決條件支持平臺： GNU/Linux：已經證實了 Hadoop 在 GNU/Linux 平臺

Apache Hadoop 入門教程第一章

大數據 hadoop Apache Hadoop 是一個由 Apache 基金會所開發的分布式系統基礎架構。可以讓用戶在不了解分布式底層細節的情況下，開發出可靠、可擴展的分布式計算應用。 Apache Hadoop 框架，允許用戶使用簡單的編程模型來實現計算機集群的大型數據集的分布式處理。它的目的是支

Apache Hadoop 入門教程第三章

hadoop 大數據免密碼 ssh 設置現在確認能否不輸入口令就用 ssh 登錄 localhost: $ ssh localhost1如果不輸入口令就無法用 ssh 登陸 localhost，執行下面的命令： $ ssh-keygen -t rsa -P ‘‘ -f ~/.ssh/id_rsa$

（學習筆記版）Hadoop入門（一）：Hadoop2.7.3完全分布式集群安裝

min property per cal mon 分別是 master 修改 node 在這裏寫下安裝hadoop2.7.3版本的完全分布式的過程，因為剛開始學習hadoop不久，希望自己把學習的東西記錄下來，和大家一起分享，可能有錯誤的地方，還請大牛們批評指正，在我學習的

大數據hadoop入門之hadoop家族詳解

集成查詢工具人員進一步容錯基礎知識不同的 ima nbsp 大數據hadoop入門之hadoop家族詳解大數據這個詞也許幾年前你聽著還會覺得陌生，但我相信你現在聽到hadoop這個詞的時候你應該都會覺得“熟悉”！越來越發現身邊從事hadoop開發或者是正在學習

0基礎學習hadoop怎麼學？怎麼進行hadoop入門學習

學hadoop需要什麼基礎？Hadoop作為大資料工業中的主引擎，Hadoop就像是大資料世的一把鑰匙，想要進入資料世界，首先你得顯得得到這把鑰匙，才能開啟大門。學hadoop需要什麼基礎？Hadoop是一個分散式計算架構，更重要的是它是一個可擴充套件的生態系統，像IBM，EMC，Amazon，微軟，甲骨

0基礎學習hadoop怎麽學？怎麽進行hadoop入門學習

導入導出場景 mysql 實時 ive 進入微軟足夠 hbase 學hadoop需要什麽基礎？Hadoop作為大數據工業中的主引擎，Hadoop就像是大數據世的一把鑰匙，想要進入數據世界，首先你得顯得得到這把鑰匙，才能打開大門。學hadoop需要什麽基礎？Hadoo

Hadoop新手篇：hadoop入門基礎教程

Hadoop新手篇：hadoop入門基礎教程關於hadoop的分享此前一直都是零零散散的想到什麼就寫什麼，整體寫的比較亂吧。最近可能還算好的吧，畢竟花了兩週的時間詳細的寫完的了hadoop從規劃到環境安裝配置等全部內容。寫過程不是很難，最煩的可能還是要給每一步配圖，工程量確實比較大。原計

hadoop入門教程之DKH安裝環境準備

hadoop入門教程之DKH安裝環境準備前幾天去參加了一個線下的聚會，參加聚會的基本都是從事網際網路工作的。會上有人提到了區塊鏈，從而引發了一場關於大資料方面的探討。我也是從去年才正式接觸大資料，一直在學習hadoop。相信接觸過hadoop的人都知道，。單獨搭建hadoop裡每個組建都需

hadoop入門學習教程--DKHadoop完整安裝步驟

dfs 空間按鍵 name 對應關系教程自己打不開系統分區 hadoop入門學習教程--DKHadoop完整安裝步驟使用hadoop版本是DKH標準三節點發行版，DKHadoop版本的易用性比較好，環境部署要簡單的多，參考此篇安裝前請先下載DKHadoop版本，

Hadoop入門總結

問題1：靜態ip配置配置hosts 配置hostname 要一致問題2 ：ssh生成與公鑰傳輸問題3：namenode每次開機格式化問題問題4：xxx-site.xml配置問題5：三種方式並存使用軟連結常用命令

hadoop入門學習教程:DKHadoop完整安裝步驟

使用hadoop版本是DKH標準三節點發行版，DKHadoop版本的易用性比較好，環境部署要簡單的多，參考此篇安裝前請先下載DKHadoop版本，網盤連結：https://pan.baidu.com/s/1-427Sh6lTLrLAPh6KMOYVg 提取碼：vg2w &nbs

Hadoop入門

相關推薦