Hadoop知識點1

阿新 • • 發佈：2018-11-08

1大資料：指無法在一定時間範圍內用常規軟體工具進行捕捉，管理和處理的資料集合。

2大資料主要解決，海量資料的儲存和海量資料的分析計算問題。

3資料儲存單位：bit,Byte,KB,MB,GB,TB,PB,EB,ZB,YB

4大資料的特點：1大量2高速（資料增長速度非常快）3多樣化（資料結構的多樣化）4低價值密度（資料量越多價值密度越低）

5工作中大資料部門組織架構（資料探勘其實就是演算法工程師）：

6Apache是Hadoop的一個版本

7Hadoop的優勢：

a高可靠性：Hadoop對每個節點(叢集中的一臺機器)至少存3個副本，所以即使Hadoop某個計算元素或儲存出現故障，也不會導致資料的丟失

b高擴張性，在叢集間分配任務資料，可方便的擴充套件以千計算的節點。

c高效性：在MapReduce的思想下，Hadoop是並行工作的，以加快任務處理速度。

d高容錯性，能夠自動將失敗的任務重新分配

8Hadoop組成

hadoop=hdfs+mapreduce+yarn

a HDFS=hadoop distributed file System:Hadoop分散式檔案系統作用：儲存檔案

b MapReduce 作用：計算

c YARN 作用：資源排程（分配叢集的CPU，叢集的硬碟等資源）

9HDFS概概述：

hdfs=nameNode+DateNode+Secondary NameNode

a NameNode 作用：儲存檔案的元資料（元資料：描述資料的資料）

bDateNode 作用:儲存真實的資料，校驗和

cSecondary NameNode 作用：給NameNode幹活的

10YARN概述：

yarn=resourceManager+nodeManager+applicationMaster+Container
a ResourceManager 作用：整叢集資源的排程

b NodeManager 作用：每個結點的資源排程

c ApplicationMaster 作用：每個任務要用到的資源的排程

d Container 作用：相當於把整個叢集的資源分成一個個Container，每個任務都跑在一個Container上

10MapReduce概述：

MapReduce=map+reduce

a Map 作用：把資料切分並行處理

b Reduce 作用：把Map處理的結果進行彙總

11大資料技術生態體系：

[1]大資料處理的資料分為三種：
a結構化資料（例如資料庫中存的資料）

b半結構化資料（例如檔案日誌），半結構化資料是可以通過一定的手段轉化成結構化資料的資料

c非結構化資料（視訊,ppt等沒有規律的資料）

[2]資料傳輸層,分為三個框架

a Sqoop 這個詞的來源：my[sq]l+had[oop]相當於將關係型資料庫的資料導到HDFS上

b Flume ：日誌採集的框架。主要作用：日誌會寫在伺服器的.log檔案中，每次生成的日誌在這個檔案中不停的追加，

Flume的主要作用是對這個日誌檔案進行監控，監控他追加的情況，並把這個日誌裡面的內容通過Flume

這個框架再換到別的框架，例如：HDFS,Kafka，Flume和Kafka可以實現無縫的對接

c Kafka：處理流式資料（資料來源不斷變化的資料），Kafka也叫資料匯流排

資料匯流排：將流到它裡面的資料進行一個分發

[3]資料儲存層：

a HDFS

b Hbase:非關係型資料庫（可以儲存關係型資料和非關係型資料）

[4]資源管理層：YARN

[5]資料計算層

a MapReduce---框架：

[a]HIVE：將sql語句自動轉化成MapReduce程式進行執行

b Spark Core(Spark中的一個元件)---框架：

[a]Spark Mlib:封裝了很多演算法

[b]Spark R:用於資料分析

[c]Spark Sql：資料查詢

[d]Spark Streaming:實時計算（偽實時，可能是隔5s處理一次，有一個延時）,用來處理Kafka傳來的資料

[e]Strom：真正的實時計算

a，b的主要區別：MapReduce在處理資料的時候是基於硬碟的（缺點速度慢）

Spark Core(缺點斷電丟資料)在處理資料的時候是基於記憶體的。

[6]任務排程層，框架：Oozie

任務排程：第二個計算依賴於第一個計算的結果，任務排程用於控制任務的執行先後

[7]大資料生態系統的潤滑劑：zookeeper

Hadoop知識點1

1大資料：指無法在一定時間範圍內用常規軟體工具進行捕捉，管理和處理的資料集合。 2大資料主要解決，海量資料的儲存和海量資料的分析計算問題。 3資料儲存單位：bit,Byte,KB,MB,GB,TB,PB,EB,ZB,YB 4大資料的特點：1大量2高速（資料增長速度非常快）3多樣化（資

CSS知識點1

clas -a 16px css opened 微軟雅黑 display div bsp CSS知識點導圖關聯HTML的三種方式 1、鏈接式　　也是將一個.css文件引入到HTML文件中，先加載CSS樣式，然後加載html

j2se學習中的一些零碎知識點1（內容有些零散）

方法封裝對象變量繼承 1、java編譯和運行階段發生的事情，如下圖所示：- 編寫的java源文件，通過java編譯器編譯生成以.class結尾的字節碼文件（字節碼並不是二進制），生成的字節碼文件通過類裝載器裝載進java虛擬機中，再通過java虛擬機運行轉化成二進制文件與底層的操

必背知識點-1

cisco 交換機路由器基礎交換深圳雲計算王森問題1、設備連接介質有哪些？答案：網線、光纖問題2、網線的線序有哪些，分別是什麽，區別是什麽？答案：568B - 白橙、橙、白綠、藍、白藍、綠、白棕、棕； 568A - 白綠、綠、白橙、藍、白藍、橙、白棕、棕；

hadoop-mapreduce-(1)-統計單詞數量

fig pack lib let ack 函數 text dex pri 編寫map程序 package com.cvicse.ump.hadoop.mapreduce.map; import java.io.IOException; import org.apach

整理第二周C知識點1流程之選擇

tro post 問題： spa 用法整理 log 循環必須流程控制(重點) 1.流程控制：程序執行的數序分類：1.順序 2.選擇 3.循環 2.選擇：某些代碼可能執行也可能不執行，有選擇的執行一些代碼 (1)if用法： if（表達式）語句A;//如果表達式為真

AFNetworking 知識點1--NSCopying NSMutableCopying

bject 地址 nss AD 有關技術分享可能相關 afnetwork 1.NSCopying ————> - (id)copy; NSCopying是一個與對象拷貝有關的協議。如果想讓一個類的對象支持拷貝，就需要讓該類實現NSCopying協議。 NS

SDWebimage相關知識點1-- 線程

共享資源 val 擁有 ood object 當前字典完全 int 一線程（thread）是組成進程的子單元，操作系統的調度器可以對線程進行單獨的調度。實際上，所有的並發編程 API 都是構建於線程之上的 —— 包括 GCD 和操作隊列（operation que

AFNetworking 知識點1--NSCoding NSSecureCoding

不能類庫 coder tom AR odi 如果 runt -i NSData 對象轉為NSData 這個過程稱為序列化，NSData轉對象稱為反序列化。任何對象轉NSData，都需要遵循一個協議，就是NSCoding。 NSCoding 是把數據存儲在iOS和M

SDWebimage相關知識點1-- NSOperation

先進先出特定 nsthread 來講才會 enc prior 工作區計算機 GCD GCD是最常用的管理並行代碼和執行異步操作的Unix系統層的API。GCD構造和管理隊列中的任務。隊列是按先進先出(FIFO)管理對象的數據結構。隊列類似電影院的售票

瑣碎知識點(1)

因此 cli 軟件是否 inux 喜歡 font sta 如果 1、看懂鏈接單頁面應用鏈接：https://reactjs.org/docs/react-api.html#createelement （鏈接中有#號） 2、免費的圖片分享網站imgur 網站地址：htt

python知識點1

bsp 多重 init 應該傳遞 append 操作相同進行 1.if __name__ == ‘main‘ 的作用在此函數下的代碼，只有當該文件運行的時候才能運行。當前文件如果被當做模塊被其他文件導入，該函數下的代碼就不會被執行。 2.__init__方法

hadoop 3.1.1 單機集群配置/啟動問題時的問題處理

mapr size iss specific onf keys property chm ctc 一.修改配置文件(hadoop目錄/etc/hadoop/配置文件) 1.修改hadoop-env.sh,指定JAVA_HOME 修改完畢後 2.修改core-site.x

hadoop 3.1.1 Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

name ado org 3.1.1 div 9.png per mapred 技術分享啟動hdfs後執行share目錄中自帶的mapreduce程序時報如下錯誤找到$HADOOP_HOME/etc/mapred-site.xml,增加以下配置 1 <p

Hadoop 3.1.1 - Yarn - 使用 GPU

fig tools plugins vid div 控制 target nal endpoint 在 Yarn 上使用 GPU 前提目前，Yarn 只支持 Nvidia GPU。 YARN NodeManager 所在機器必須預先安裝了 Nvidia 驅動器。如果使用

Hadoop 3.1.1 - Yarn - 使用 FPGA

gree 提前 value 系統 nor discovery 驅動程序 rop oar 在 Yarn 上使用 FPGA 前提 YARN 目前只支持通過 IntelFpgaOpenclPlugin 發布的 FPGA 資源 YARN NodeManager 所在的機器上必須預

Pyhton全棧的知識點(1)

1. 什麼是python？使用python有什麼好處？ python是一種程式語言，它有物件、模組、執行緒、異常處理和自動記憶體管理。它簡潔，簡單、方便、容易擴充套件、有許多自帶的資料結果，而且它開源 2. python是如何被解釋的？ Python是一種解釋性語言，它的原始碼可以直接執行，Pytho

Hadoop知識點總結！！！

沒什麼好解釋的，純粹的乾貨分享。。。 Hadoop： 1.Hadoop的四大模組: 1.common:基礎模組，用於支撐其他模組 &

CSS知識點1：塊元素/行內元素/行內塊元素的區別

HTML可以將元素分類方式分為行內元素、塊狀元素和行內塊狀元素三種。首先需要說明的是，這三者是可以互相轉換的，使用display屬效能夠將三者任意轉換：　　(1)display:inline;轉換為行內元素　　(2)display:block;轉換為塊狀元素　　(3)display:i

C++知識點1（行內函數）

1. 行內函數在C++中我們通常定義以下函式來求兩個整數的最大值：複製程式碼程式碼如下: int max(int a, int b) { return a > b ? a : b; } 為這麼一個小的操作定義一個函式的好處有： ①

Hadoop知識點1

相關推薦