淺學hedoop

阿新 • • 發佈：2019-01-14

hadoop中有3個核心元件：

分散式檔案系統：HDFS —— 實現將檔案分散式儲存在很多的伺服器上

分散式運算程式設計框架：MapReduce —— 實現在很多機器上分散式並行運算

分散式資源排程平臺：Yarn —— 幫使用者排程大量的mapreduce程式，併合理分配運算資源

HDFS為海量的資料提供了儲存，則MapReduce為海量的資料提供了計算

Hadoop主要元件包含：

Hadoop：Java編寫的軟體框架，以支援資料密集型分散式應用
ZooKeeper：高可靠性分散式協調系統
MapReduce：針對大資料的靈活的並行資料處理框架

HDFS：Hadoop分散式檔案系統
Oozie：負責MapReduce作業排程
HBase：Key-value資料庫
Hive：構建在MapRudece之上的資料倉庫軟體包
Pig：Pig是架構在Hadoop之上的高階資料處理層。Pig Latin語言為程式設計人員提供了更直觀的定製資料流的方法。

HDFS 的工作機制：

客戶把一個檔案存入hdfs，其實hdfs會把這個檔案切塊後，分散儲存在N臺linux機器系統中（負責儲存檔案塊的角色：data node）<準確來說：切塊的行為是由客戶端決定的

>

一旦檔案被切塊儲存，那麼，hdfs中就必須有一個機制，來記錄使用者的每一個檔案的切塊資訊，及每一塊的具體儲存機器（負責記錄塊資訊的角色是：name node）

3、為了保證資料的安全性，hdfs可以將每一個檔案塊在叢集中存放多個副本（到底存幾個副本，是由當時存入該檔案的客戶端指定的）

綜述：一個hdfs系統，由一臺運行了namenode的伺服器，和N臺運行了datanode的伺服器組成！

MapReduce：

MapReduce的基本原理就是：將大的資料分析分成小塊逐個分析，最後再將提取出來的資料彙總分析，最終獲得我們想要的內容。當然怎麼分塊分析，怎麼做Reduce操作非常複雜，Hadoop已經提供了資料分析的實現，我們只需要編寫簡單的需求命令即可達成我們想要的資料。

Yarn ：

yarn是一個分散式程式的執行排程平臺

yarn中有兩大核心角色：

Resource Manager

接受使用者提交的分散式計算程式，併為其劃分資源

管理、監控各個Node Manager上的資源情況，以便於均衡負載

Node Manager

管理它所在機器的運算資源（cpu + 記憶體）

負責接受Resource Manager分配的任務，建立容器、回收資源

HBASE是一個數據庫----可以提供資料的實時隨機讀寫

HBASE與mysql、oralce、db2、sqlserver等關係型資料庫不同，它是一個NoSQL資料庫（非關係型資料庫）

HBASE相比於其他nosql資料庫(mongodb、redis、cassendra、hazelcast)的特點：

Hbase的表資料儲存在HDFS檔案系統中

HBASE是一個分散式系統

其中有一個管理角色： HMaster(一般2臺，一臺active，一臺backup)

其他的資料節點角色： HRegionServer(很多臺，看資料容量)

淺學hedoop

hadoop中有3個核心元件：分散式檔案系統：HDFS —— 實現將檔案分散式儲存在很多的伺服器上分散式運算程式設計框架：MapReduce —— 實現在很多機器上分散式並行運算分散式資源排程平臺：Yarn —— 幫使用者排程大量的mapreduce程式，併合理分配運算資源

淺學vue

模式在一起 -c height 條件表達式 code 回調 example 其他因之前項目接觸了vue,從此我被迷住，簡潔而不失優雅，小巧而不乏大匠。首先我們要了解vue，什麽是vue，正如官網所說：Vue.js 是一套構建用戶界面的漸進式框架，Vue 的核心庫只關註

淺學JNI和NDK

介紹 c++ google 什麽為什麽文章內容特點文件 view 作者：十歲的小男孩 QQ：929994365 心之安處即是吾鄉前言　　本文試圖通過解答以下三個問題來達到學習JNI和NDK的目的。是什麽？有什麽用？怎麽用？文章內容前三節來自下面第一個鏈接的博主共

淺學C++ STL--string容器程式碼筆記

capacity() string類capacity()容器的大小會因編譯器的不同而得到的容量大小有所不同； VS2017中string類首次分配空間為15，溢位之後分配為+16，之後每溢位16就+16，簡而言之規律就是：15+16+16+16+； VC++6.0

淺學strcmp

strcmp 標頭檔案<string.h> 值 string1 與 string2 的關係 < 0 string1 小於 string2。 0

淺學指標----cout輸出程式碼筆記

在電腦科學中，指標（Pointer）是程式語言中的一個物件，利用地址，它的值直接指向（points to）存在電腦儲存器中另一個地方的值。由於通過地址能找到所需的變數單元，可以說，地址指向該變數單元。因此，將地址形象化的稱為“指標”。意思是通過它能找到以它為地址的記憶體單元。【概念來源百度百科】

JS淺學

滾動條 sele 變量 selected head 索引 closed pri 是否 (變量的名字.focus(); )讓打開的新的頁面獲取焦點 (變量的名字.close();)關閉打開的頁面可以用（！變量名）直接判斷是否打開過新的頁面用(變量名.closed)判斷

第三篇淺學Java

上一篇說到經過3個星期的時間，基本上算是對Java有了一個初步的認識，自己在編寫計算器的過程中學到了很多，很多的東西不是一下就可以學完的，特別是別人以為很簡單的事情。在編寫計算器的函式方法的時候，我逐漸的懂得了怎麼去建立一個新的物件，怎麼呼

淺學showpoint、setprecision和fixed的程式碼筆記

#include <iostream> #include <iomanip> using namespace std; int main() { double q =15.14259863; cout << showpoi

自相關函式-淺學

auto-correlation老闆要求做個自相關函式的處理模組，要求邏輯正確，高速處理, c++實現，別人解釋了下什麼是自相關函式，又查了些資料，記錄一些淺薄的理解，理解不一定正確，先看簡單的兩條曲線 A 和B：離散化後，這兩條曲線的平均值應該是很接近的，同樣，這兩條曲

淺學設計模式之建造者（Buildler Pattern）模式及在android中的應用

public class Food { private String mFoodName; private String mFoodTastes; private String mFoodFeatures; private String mChillies; private String mSuga

【小白學C#】淺談.NET中的IL代碼

字節自然朋友 pac command 轉換 finally idt 擴展一、前言　　前幾天群裏有位水友提問：”C#中，當一個方法所傳入的參數是一個靜態字段的時候，程序是直接到靜態字段拿數據還是從復制的函數棧中拿數據“。其實很明顯，這和方法參

小白學《神經網路與深度學習》筆記之一-計算機的潛意識：淺談神經網路-從神經元到深度學習

神經網路是一門重要的機器學習技術。它是目前最為火熱的研究方向--深度學習的基礎。學習神經網路不僅可以讓你掌握一門強大的機器學習方法，同時也可以更好地幫助你理解深度學習技術。本文以一種簡單的，循序的方式講解神經網路。適合對神經網路瞭解不多的同學。本文對閱讀沒有一定的前提要

淺談密碼學（二）Merkle（默克爾）樹

Merkle Tree多數是用來進行比對和驗證處理，一般意義上來講，它是雜湊大量聚集資料“塊”的一種方式，它依賴於將這些資料“塊”分裂成較小單位的資料塊。每一個小單位資料塊僅包含幾個資料“塊”，然後取

淺談密碼學（一）基礎知識

說到密碼想必大家都不陌生，其實世界上有兩種密碼，通俗的說：一種是防止小孩偷看你的檔案；另一種是防止當局閱讀你的檔案。那麼現在我們來說說專業術語 - 傳送者和接收者傳送者和接收者就不必多說了，一方傳送訊息，另一方接收訊息，以至於第三方（竊聽者）

跟著 Google 學測試自動化——淺談 Telemetry 的測試框架設計

Telemetry（專案主頁）是 Google 為 Chromium 專案所編寫的一套效能測試自動化框架。從測試架構上以及實際使用中，Telemetry 均表現出極強的易用性和擴充套件性，本文試圖探討的就是 Telemetry 的框架是如何設計以及為啥這樣設

前端網老姚淺談：怎麼學JavaScript？

作者：小不了連結：https://zhuanlan.zhihu.com/p/23265155 來源：知乎著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。鑑於時不時，有同學私信問我（老姚，下同）怎麼學前端的問題。這裡統一回復一下，如下次再遇到問我此問題同學，就直接把本文連結地址發給你了。

淺談嵌入式工程師入門及嵌入式工程師進階，學嵌入式這些你需要知道

你是找到一個人不知道裏來方法高級編程嵌入式系統實用想要從事嵌入式開發，但又不知道怎麽入門的，可以看下，下面我結合自身實際來談一談。前提基礎：簡單的電路、模電、數電知識，C語言一、從51單片機入手如果有一些前提的基礎知識，要上手51單片機不算難。首先，

【小白學PyTorch】3 淺談Dataset和Dataloader

文章目錄： [TOC] ## 1 Dataset基類 PyTorch 讀取其他的資料，主要是通過 Dataset 類，所以先簡單瞭解一下 Dataset 類。在看很多PyTorch的程式碼的時候，也會經常看到dataset這個東西的存在。Dataset類作為所有的 datasets 的基類存在，所有的 da

IT人的前沿技術書單：學不到老，就活不到老

伸縮以及了解必須設置 plot hold 設計模式海量數據 IT人作為這個互聯網時代的弄潮兒，我們天生就處於技術浪潮的中心地帶，技術的變革讓我們不得不掌握終生學習的能力和多元化的知識領域，技術的浪潮時而沖天而起，時而又歸於平靜，但是始終在推動著人類社會向前發展。你

淺學hedoop

Hadoop主要元件包含：

相關推薦