1. 程式人生 > >1.0 Hadoop-HDFS介紹及安裝

1.0 Hadoop-HDFS介紹及安裝

HDFS分散式儲存系統(提供了 高可靠性、高擴充套件性和高吞吐率的資料儲存服務)HDFS優點:高容錯性 資料自動儲存多個副本,副本丟失後,自動恢復適合批處理 移動計算而非資料,資料位置暴露給計算框架適合大資料處理可構建在廉價機器上HDFS缺點:低延遲資料訪問 比如毫秒級,低延遲與高吞吐率小檔案存取 佔用NameNode 大量記憶體,尋道時間超過讀取時間併發寫入、檔案隨機修改 最好不要修改HDFS:NameNode | Secondary NameNode | DataNode(block)
NameNode主要功能:接受客戶端的讀寫服務NameNode儲存metadate(源資訊)– NameNode的metadate資訊在啟動後會載入到記憶體metadata儲存到磁碟檔名為”fsimage”Block的位置資訊不會儲存到fsimageedits記錄對metadata的操作日誌SecondaryNameNode(SNN)它不是NN的備份(但可以做備份),它的主要工作是幫助NN合併edits log,減少NN啟動時間SNN執行合併時機根據配置檔案設定的時間間隔fs.checkpoint.period 預設3600秒根據配置檔案設定edits log大小 fs.checkpoint.size 規定

DataNode儲存資料(Block)啟動DN執行緒的時候會向NN彙報block資訊通過向NN傳送心跳保持與其聯絡(3秒一次),如果NN 10分鐘沒有收 到DN的心跳,則認為其已經lost,並copy其上的block到其它DN預設情況下block加上自己都有三個副本,大小最好不要超過1GHDFS支援2種認證:simple 只認證使用者,不認證密碼,預設使用kerberos 認證使用者也認證密碼,但是要新增機器的時候,新增的機器上使用者名稱密碼失效HDFS的namenode啟動的時候自動進入安全模式,這時候檔案只讀HDFS安裝:
  1. 先決條件
    1. 三臺機器(以上)
    2. 時間一致,相差30秒以內。
    3. 必須有主機名和ip對映。 --hdfs只認主機名,不認IP
    4. 必須有JDK1.7,並且JDK的環境變數必須配置好。
      1. 配置環境變數:vi ~/.bash_profile #全域性變數:/etc/profile
在檔案的最後新增:export JAVA_HOME=/usr/java/defaultexport PATH=$PATH:$JAVA_HOME/binsource ~/.bash_profile 重新重新整理環境變數檔案
  1. 防火牆暫時關閉。
上傳tar,並且解壓(tar -zxvf tar包名)。並且配置hadoop的環境變數export HADOOP_HOME=/opt/local/hadoop-2.5.2export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  1. 編輯hadoop配置檔案/etc/hadoop
    hadoop-env.sh core-site.xml  hdfs-site.xml
SlevesHadoop-env.sh更改第25export JAVA_HOME=/usr/java/defaultcore-site.xml     ---主節點  namenode<property>        <name>fs.defaultFS</name>        <value>hdfs://node1:9000</value>    </property><property>        <name>hadoop.tmp.dir</name>        <value>/hadoop</value></property>Hdfs-site.xml       --secondary namenode<property>   <name>dfs.namenode.secondary.http-address</name><value>node2:50090</value></property><property><name>dfs.namenode.secondary.https-address</name><value>node2:50091</value></property>Slaves所有datanode的主機名 --設定所有作為datanode節點的主機名node1node2node3
  1. 設定sshd免密碼登陸。
    1. 找一臺主節點:啟動服務。
      1. 執行命令生成金鑰。ssh-keygen     (cd /root        ls –al      cd .ssh)
      2. 拷貝主節點的公鑰到所有節點中去。ssh-copy-id -i id_rsa.pub [email protected]node2 node2可隨意修改node1 node2(所有需要免密碼的伺服器)
  2. 拷貝檔案:hosts,bash_profile  hadoop目錄 到其他幾臺機器
  3. 格式化HDFS: bin/hdfs namenode –format 必須在主節點上
  4. 在主節點上啟動 sbin/start-dfs.sh
啟動之後:jps 顯示機器節點名稱 http://localhost:50070/    localhost改為namenode的ID 網頁訪問埠50070 其他訪問埠9000hdfs dfs -ls / 檢視HDFS根目錄下有沒有資料夾hdfs dfs -mkdir /home 在根目錄下建立一個home資料夾hdfs dfs -put apache-tomcat-7.0.61.tar.gz /home/ 把apache上傳到網盤home下hdfs dfs 檢視幫助文件hdfs dfs -chown -R zhangsan /test 給test資料夾許可權修改為zhangsanhadoop -deamon.sh restart datanode 重啟這個datanode節點hadoop -deamons.sh restart datanode 重啟所有datanode節點 -一般不用eclipse中訪問hdfs服務: D:\java工具\eclipse\plugins 中加上hadoop-eclipse-plugin-2.5.1.jar,然後重啟然後右上角-》Open Perspective找到Map/Reduce下方找到Map/Reduce locations 右下角:New hadoop location選擇DFS Master host:自己的nodeName的IP 埠9000 Location name:隨便取 eclipse程式設計:注意windows使用者注意修改為root

相關推薦

1.0 Hadoop-HDFS介紹安裝

HDFS分散式儲存系統(提供了 高可靠性、高擴充套件性和高吞吐率的資料儲存服務)HDFS優點:高容錯性 資料自動儲存多個副本,副本丟失後,自動恢復適合批處理 移動計算而非資料,資料位置暴露給計算框架適合大資料處理可構建在廉價機器上HDFS缺點:低延遲資料訪問 比如毫秒級

Memcache學習總結1-Memcache與Memcached介紹安裝配置

也許大家一看到Memcache和Memcached會有點暈,這兩者有什麼關係又有什麼區別呢,下面先給大家說下Memcached,Memcached是一個高效能的分散式記憶體物件快取系統,用於動態Web應用以減輕資料庫負載。它通過在記憶體中快取資料和物件來減少讀取資料庫的次數,從而提高動態、資料庫驅動網站的速

自動化運維工具之SaltStack-1、SaltStack介紹安裝

自動生成 模塊 模糊匹配 mini 說明 pac roc redhat 通信 1、SaltStack簡介 官方網址:http://www.saltstack.com官方文檔:http://docs.saltstack.comGitHub:https:github.com/s

19.1 Linux監控平臺介紹 19.2 zabbix監控介紹安裝

19.1 Linux監控平臺介紹 19.19.1 Linux監控平臺介紹 19.2 zabbix監控介紹 19.3/19.4/19.6 安裝zabbix 19.5 忘記Admin密碼如何做 19.1 Linux監控平臺介紹 19.2 zabbix監控介紹及安裝

Hive-0.13.1本地獨立模式安裝 元資料儲存到MariaDB-10.1.0 Hadoop-2.4.0

tar -zxvf apache-hive-0.13.1-bin.tar.gz 解壓後,編輯java.sh(java.sh為自己建立的指令碼): vim /etc/profile.d/java.sh export HIVE_HOME=/opt/modules/hive/apache-hive-0.13.1

mongoDB簡單介紹安裝

疑問 每次 data- .org 存儲 cmd 針對 安裝包 目錄 近期一段時間對mongoDB進行了簡單的學習,從它是什麽?幹什麽?怎麽用?優缺點?這一系列的疑問到如今可以簡單運用。我想須要對其進行簡單的總結和概述。那麽這一篇就從最基礎的開始,對其

PhpStorm 10.0.3漢化安裝破解教程

文件 php單元測試 php 7 同時 優點 擁有 mac os 全部 多語言 PhpStorm 10.0.3漢化破解版 PhpStorm是由JetBrains公司開發推出的商業PHP集成開發工具,軟件不僅包含了webstorm的全部功能,還擁有php、javascrip

RabbitMQ介紹安裝部署

lan 行數 安裝部署 原理圖 tro 快的 它的 主題 通配符 本節內容: RabbitMQ介紹 RabbitMQ運行原理 RabbitMQ重要術語 三種ExchangeType RabbitMQ集群種類 集群基本概念 鏡像模式部署集群 一、RabbitMQ介紹

Storm介紹安裝部署

節點和 yam 實時計算系統 如果 int 端口 bili usr then 本節內容: Apache Storm是什麽 Apache Storm核心概念 Storm原理架構 Storm集群安裝部署 啟動storm ui、Nimbus和Supervisor 一、Ap

關於WSL(Windows上的Linux子系統)的簡單介紹安裝

更新 允許 服務器 不能 targe cnblogs 之前 xshel 設置 WSL,Windows Subsystem for Linux,就是之前的Bash on [Ubuntu on] Windows(嗯,微軟改名部KPI++ 首先要說一句,其實Win

Maven介紹安裝

hang 技術分享 window 重點 pac ack 系統 use 介紹 1.maven是一個管理第三方庫的jar package 2.從該頁面下載相應的Maven jar包(http://maven.apache.org/download.cgi),linux OS

初識TomCat之2——TomCat介紹安裝

重啟 一個tomcat security direct 查看 介紹 虛擬 vpd use 一、TomCat介紹通過之前的介紹,Tomcat與JDK共同構成了一個Web Container容器,它在JDK的基礎上提供了Servlet和JSP組件,可以接受來自客戶端的動態請求,

Tomcat介紹安裝

TomcatTomcat介紹 安裝jdk 1.下載jdk包,並放到、usr/local/src目錄下: [root@weix-01 src]# ls httpd-2.2.34 httpd-2.4.29.tar.gz httpd-2.2.34.tar.gz jdk-8u161-linux-

Docker的介紹安裝

hardware roo 支持 命令行 linu 介紹 直接 正常 什麽是 什麽是Dcoker? 引用度娘的解釋:Docker 是一個開源的應用容器引擎,讓開發者可以打包他們的應用以及依賴包到一個可移植的容器中,然後發布到任何流行的 linux 機器上,也可以實現虛擬化。

16.1-16.3 Tomcat介紹安裝JDK和Tomcat

Tomcat JDK 16.1 Tomcat介紹16.2 安裝jdk16.3 安裝Tomcat擴展java容器比較 http://my.oschina.net/diedai/blog/271367 http://www.360doc.com/content/11/0618/21/16915_12

python selenium系列(一):框架介紹安裝

row pre ive AS baidu mar 在操作 pan 但是 一 selenium是什麽?引用百度百科的介紹selenium的一段話:“Selenium 是一個用於Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。支持的

21.1-21.4 memcached介紹安裝使用,狀態查看

hash ptime 對象 images 內部 使用命令 serve 什麽是 max NoSQL21.1 什麽是NoSQL非關系型數據庫就是NoSQL,關系型數據庫代表MySQL對於關系型數據庫來說,是需要把數據存儲到庫、表、行、字段裏,查詢的時候根據條件一行一行地去匹配,

ActiveMQ簡單介紹安裝

rest bubuko tcp .tar.gz onf 通道 基本認識 通過 amqp 消息中間件 我們簡單的介紹一下消息中間件,對它有一個基本認識就好,消息中間件(MOM:Message Orient middleware)。 消息中間件有很多的用途和優點: 1. 將數

Celery學習---Celery 分布式隊列介紹安裝

amqp ron https 失敗 成功 efault 理解 ice 添加 Celery介紹和基本使用 Celery 是一個 基於python開發的分布式異步消息任務隊列,通過它可以輕松的實現任務的異步處理, 如果你的業務場景中需要用到異步任務,就可以考慮使用celery

MySQL介紹安裝(一)

unit cal time 連接 rac efault mysql用戶 速度 welcome 一、關系型數據庫和非關系型數據庫   1.1:關系型數據庫     關系型數據庫是把復雜的數據結構歸結為簡單的二元關系(即二維表格的形式),在關系型數據庫中,對數據的操作幾乎全