Hadoop的產生背景

阿新 • • 發佈：2019-01-02

hadoop的背景
- 資料處理步驟：
  　　通過運用Python網頁爬蟲或者Hadoop的Flume框架實時收集資料>資料儲存>運用Hadoop、Hive、Spark查詢關鍵字進行資料統計>統計之後的資料由HDFS匯入到MySQL中進行儲存>運用SpringMVC建立與MySQL聯絡，對資料進行Web前端展示（主要是HighChart軟體）。
- 對於儲存：Google採用多臺機器，使用分散式的概念去儲存
  對於計算：用多臺機器去處理
  　　MapReduce核心思想：將資料分開處理，結果合在一起儲存（”分而治之”思想）。MapReduce分為Map和Reduce，每個Map處理的資料是獨立的，Reduce就是合（結果合在一起儲存）
- 關於儲存：HDFS誕生>分散式檔案系統
  　　資料儲存在HDFS上，然後MapReduce進行處理HDFS上的資料。
  　　分散式儲存：分散式資料庫：HBase(google稱其為：BigTable、GFS)。
- 分散式儲存系統起源於谷歌的三篇論文（谷歌的三駕馬車：MapReduce、BigTable、GFS）
  　　後來逐漸演變為現在的Hadoop生態系統的主要框架：
  GFS ->HDFS
  MapReduce->MapReduce
  BigTable->HBase
- Hadoop的四大核心模組
  Hadoop common：支援其他模組的工具類，為Hadoop模組提供基礎設施
  Hadoop HDFS：分散式檔案系統，提供儲存
  Hadoop YARN：任務排程和叢集資源管理
  Hadoop MapReduce：分散式離線計算框架
  　　Hadoop之父Doug Cutting，Lucene、Nutch 、Hadoop等專案的發起人。
Hadoop的特性
可靠、可擴充套件、分散式計算框架
- 儲存的可靠性：
  　　如果儲存資料的機器損壞了。HDFS提供了一個策略，給資料提供一個副本數（預設3個），這是犧牲了硬碟作為代價，但是划算的。
  HDFS儲存形式：以塊儲存，塊損壞了，同樣提供了一個策略，對於每個儲存檔案產生一個校驗碼，之後定期對它產生一個校驗碼，進行匹配，如果不匹配，說明塊已經損壞
- 計算的可靠性：
- 可擴充套件性：可以新增任意多臺機器，增加配置
Hadoop的架構分析
- HDFS的架構分析
  1)設計理念：一次寫入，多次讀取
  2)分散式應用都有主從的架構：
  　　主節點:NameNode
  　　從節點:datanode
  3)HDFS儲存的是檔案，檔案的屬性有哪些
  　　名稱
  　　位置
  　　副本數
  　　擁有者、許可權
  　　儲存的塊
  　　各個塊具體儲存在那個datanode上
  。。。。
  　　以上資訊稱之為：元資料（名稱空間）
  元資料(名稱空間)儲存在namenode上
  檔案具體內容儲存在datanode上
  4）HDFS以塊的形式儲存（預設是128M），塊block，1系列中塊的預設大小為64MB，2系列中塊的預設大小為128MB
  　　500M檔案，塊的大小是256M，第一個塊的大小是256M，另一個是244M
  ５）對於HDFS檔案系統來說
  read讀
  write寫
  讀取流程：/user/beifeng/mapreduce/input/wc.input
  首先知道這個檔案的位置，需要先去找namenode
  “就近原則”
  客戶端>namenode
  客戶端>datanode
  寫入的過程：/user/beifeng/mapreduce/output/part-00000
  客戶端>namenode
  客戶端>datanode
  資料流沒有經過namenode,是客戶端直接和DataNode進行資料互動。
- YARN的架構分析
  是分散式框架，也是主從結構
  　　主節點：ResourceManager管理整個叢集資源
  　　從節點：NodeManger
  　　客戶端提交應用到ResourceManager上，來申請所需要的資源，分配到各個NodeManger節點上。
  YARN的排程過程：
  　　客戶端提交MapReduce任務（包括很多job）到ResourceManager節點上，申請分配資源，具體執行在NodeManager上。每個job都有一個ApplicationMaster應用管理者，對任務進行管理、監控和排程。
  　　一個Map是在單獨的資源裡面執行的，不會被其他的任務搶走資源。
  為了實現這樣的目的，提出了一個概念：將任務放在某一個空間中，這個空間就屬於某個任務，這個概念叫做：Container（容器）。
  Map和Reduce所需資源都會放在一個容器中，任務在容器中執行。
  　　小結YARN:通過每個應用的應用管理者去申請資源，然後封裝在容器中，告訴資源管理者，在容器中啟動任務。
- MapReduce計算框架
  　　將計算過程分為兩個階段，Map和Reduce，Map可以理解為一個對映。
  　　Map階段並行處理輸入資料到Reduce彙總階段中間有一個過程，叫shuffle(有順序有規則的打亂)
  簡單理解:map輸出到reduce輸入的階段就是shuffle。
  1. Hadoop 2.x產生
- Hadoop1.x出現的問題：
  HDFS存在的問題：
  　　Namenode單點故障，難以應用於線上場景。
  　　Namenode壓力過大，且記憶體受限，影響系統擴充套件性。
  Mapreduce存在問題：
  　　Jobtracker單點故障
  　　Jobtracker壓力過大，影響拓展性，難以支援Mapreduce之外的計算框架，如果storm，spark，Tez等。
  Hadoop2由Mapreduce，HDFS和yarn三分部構成
  　　HDFS:NN Federation HA
  　　Mapreduce：在yarn上執行的MR
  　　Yarn：資源管理系統
- 解決HDFS1的單點故障和記憶體受限問題：
  a：解決單點故障
  HDFS HA：通過主備Namenode切換來解決，如果主Namenode發生故障，則就切換到備Namenode上。（有了這樣的優點以後，系統升級也變得更加方便）。
  詳細過程：主Namenode對外提供服務，被Namenode同步Namenode元資料，以待切換。所有datanode塊同時向兩個Namenode彙報資料塊資訊。
  　　切換Namenode有兩種選擇，一種是手動切換，一種是自動切換。手動切換：主要使用命令來實現切換，主要適用於系統升級的場合。自動切換：是基於zookeeper實現的，zookeeper failover controller監控Namenode健康狀態，並向zookeeper註冊Namenode，Namenode掛掉後，ZKFC為Namenode競爭鎖，獲得ZKFC的Namenode成為active namenode。
  b:解決記憶體受限問題
  　　HDFS Federation（聯邦），水平拓展，支援多個Namenode，每個Namenode分管一部分目錄。所有Namenode共享所有Datanode儲存資料。
  注意：僅僅是架構上面發生了變換，其他使用方式不變,Mapreduce的改變就是YARN的改變。

Hadoop的產生背景

hadoop的背景資料處理步驟：　　通過運用Python網頁爬蟲或者Hadoop的Flume框架實時收集資料>資料儲存>運用Hadoop、Hive、Spark查詢關鍵字進行資料統計

Hadoop學習之路（二）Hadoop發展背景

chukwa 站點 avro azkaban das 可擴展性對數就是 pro Hadoop產生的背景 1. HADOOP最早起源於Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎，包括網頁抓取、索引、查詢等功能，但隨著抓取網頁數量的增加，遇到了嚴重的可擴

分布式系統的產生背景和提出的挑戰

mys 復雜 app 增長 isp mysql 復用相關而且分布式系統產生背景：　　在互聯網還沒有現在這麽方便的時候，所以很多公司的業務線都是垂直架構，如LAMP。由於各個公司的業務比較簡單，需要處理的用戶數據也相應較少，所以簡單易上手的垂直架構還能很有效地支撐各個公

zookeeper的產生背景和概念

zookeeper: 背景集中式管理集中式的一致性問題

【圖文詳細】HBase 資料庫——產生背景

自 1970 年以來，關係資料庫用於資料儲存和維護有關問題的解決方案。大資料的出現後，好多公司實現處理大資料並從中受益，並開始選擇像 Hadoop 的解決方案。Hadoop 使用分布式檔案系統，用於儲存大資料，並使用 MapReduce 來處理。Hadoop 擅長於儲存各種格式的龐大的資料

三十二、HDFS產生背景、概念、優缺點、塊大小

HDFS產生背景、概念、優缺點、塊大小 1、HDFS概念 HDFS，它是一個檔案系統，用於儲存檔案，通過目錄樹來定位檔案；其次，它是

springboot系列一、springboot產生背景及介紹

一、為什麼用Springboot 長期以來 Java 的開發一直讓人所詬病： ·Java 專案開發複雜度極其高； · Java 專案的維護非常困難； · 在雲時代如何實現專案的快速部署以及快速啟動； · 即便使用了大量的開發框架，發現我們的開發也沒少多少； · 當所有的人認為 Spring 不在前

【圖文詳細】Flume 資料採集元件——產生背景

1、資料收集工具/系統產生背景 Hadoop 業務的整體開發流程：任何完整的大資料平臺，一般都會包括以下的基本處理過程：資料採集資料 ETL 資料儲存資料計算/分析

APS的產生背景

經濟競爭已成為當今世界各國競爭的主要內容。其中，佔各國生產總值50%以上的製造業的競爭尤為激烈，其競爭核心是以知識為基礎的新產品的上市時間、質量、成本、服務及環境，以滿足各類顧客對產品日益增長的需求和社會可持續發展的新要求。面對激烈的競爭，各國紛紛制定並實施研究

爬蟲的一些知識點目錄 1. 網路爬蟲 1 2. 產生背景垂直領域搜尋引擎 2 3. 1 聚焦爬蟲工作原理以及關鍵技術概述 3 4. 涉及技術 3 4.1. 下載網頁一般是通過net api

爬蟲的一些知識點目錄 1. 網路爬蟲 1 2. 產生背景垂直領域搜尋引擎 2 3. 1 聚焦爬蟲工作原理以及關鍵技術概述 3 4. 涉及技術 3 4.1. 下載網頁一般是通過net api 3 4.2. 分析網頁（html分析

Hadoop產生原因

對於Hadoop產生的原因，我們從以下三個方面談起：一、傳統大規模系統的問題（1）傳統大規模計算 1.傳統計算受到處理器限制：相對較小的資料量；有很多複雜的處理。 2. 早期的方案：更大的計算機，更快的處理器，更多的記憶體，但即使這樣也不能滿足（2）分散式系統

Spark從入門到精通五----RDD的產生背景---建立方式及分割槽說明

交流QQ: 824203453 彈性分散式資料集RDD RDD概述產生背景為了解決開發人員能在大規模的叢集中以一種容錯的方式進行記憶體計算，提出了RDD的概念，而當前的很多框架對迭代式演算法場景與互動性資料探勘場景的處理效能非常

esp8266-001 物聯網/WiFi的概念/WiFi產生背景/

英文名 The mage str 紅外 .com 申請共享專利物聯網的基本概念·英文名稱：“lOT，The Internet of Things”。由該名稱可見，物聯網就是“物物相連的互聯網”。定義：通過射頻識別（RFID）、紅外感應器、全球定位系統、激光掃描儀等信息

【SpringBoot】產生背景及簡介

一、SpringBoot介紹 Spring Boot 是由 Pivotal 團隊提供的全新框架，其設計目的是用來簡化新 Sprin

小波分析筆記一：小波產生的背景和歷史

小波分析最近在看哈工大教授冉啟文的小波分析的視頻，講的非常好，推薦給大家。這裏是第一講筆記。第一講：小波產生的背景和歷史一、“點”的概念（重要） 1、以前我們認為在一維空間，點就是一個數；在二維空間，點就是兩個數(x,y)，N維空間的點 (x0,x1...xn)以此類推。 2、線性代數

OWIN產生的背景以及簡單介紹

images 類型 script 方式 inter empty word syn 隔離隨著VS2013的發布，微軟在Asp.Net中引入了很多新的特性，比如使用新的權限驗證模塊Identity, 使用Async來提高Web服務器的吞吐量和效率等。其中一個不得不提的是OWI

hadoop技術產生

style 瓶頸無法 class 商業 nbsp cor 智能大量一、為什麽有大數據　　我的理解是：　　　　　1）數據量達到了傳統數據庫的瓶頸　　　　　2）數據量的激增　　　　　3）硬件成本的降低 [ 技術水平的上升 ] 　　　　　4）想通過大量的數據發現潛在

大數據筆記（一）——Hadoop的起源與背景知識

variety var city inf 成本特征找到 hbase span 一.大數據的5個特征（IBM提出）：　　Volume（大量）　　Velocity（高速）　　Variety（多樣）　　Value（價值）　　Varacity（真實性）二.OLT

記錄一個Hadoop Configuration易產生的誤用

原文連結：http://dongxicheng.org/mapreduce-nextgen/hadoop-configuration-usage/ Hadoop提供了一個擴充套件性極好的key/value格式的配置管理器Configuration，你可以設定任意的屬性名，並通過Configura

java-hadoop程式設計中缺少hadoop.dll和winutils.exe以及產生的classCannotFound異常

一: 現確定自己的windows上有沒有解壓過hadoop的資料夾,環境變數HADOOP_HOME=C:hadoop(hadoop的解壓目錄)是否配置了, path是否引用了%HADOOP_HOME%bin;%HADOOP_HOME%sbin 如果不行

Hadoop的產生背景

相關推薦