Day3.Hadoop學習筆記1

阿新 • • 發佈：2018-12-08

零、概述

一、概述

Hadoop衍生自Nutch（搜尋引擎和web爬蟲），面臨的問題：海量資料儲存和計算
Big Data大資料，談的不僅僅是資料量，其實包含了資料量（Volume）、時效性（Velocity）、多樣性（Variety）、可疑性（Veracity）
綜上所述，我們可以總結出大資料的4V特徵：
Volume 資料體量龐大（PB級->EB級->ZB級）
Velocity 速度要求快（資料輸入輸出的速度）
Varity 資料型別多樣（文字|影象|音視訊）
Veracity 資料價值密度低（商業價值高）
Hadoop是一個開源儲存和計算框架，HDFS大規模資料儲存服務，MapReduce實現了對海量資料的並行處理和分析。
使用領域：電商推薦、論壇（精裝營銷）、交通（實時路況）、醫療、電信、金融

一、引言

Hadoop是什麼？
一種老牌的大資料解決方案。包括如下兩部分：
HDFS（Hadoop Distribute FileSystem）：hadoop分散式檔案系統。
MapReduce：平行計算框架的稱呼，源自於該計算模型的實現策略。
Hadoop ECO System（hadoop的生態圈）

HDFS：分散式儲存
MapReduce：平行計算

HBASE：hadoop的資料庫系統，基於HDFS之上的一款NoSQL資料庫。面向列儲存的NOSQL資料庫，使用HDFS作為底層儲存服務
Kafka：分散式訊息佇列，解決高併發
Flume：分散式日誌採集系統，實現對資料收集、轉移以及聚合
Hive：一款基於SQL的解析引擎，可以將SQL翻譯成MapReduce計算，降低程式設計師使用門檻。一款工具，將使用者的SQL翻譯成MapReduce任務
zookeeper：分佈協調服務框架
（瞭解）
Mahout: 一個可以擴充套件的及其學習以及資料探勘庫。
Spark：一個快速的通用的計算引擎用於計算Hadoop上的資料。基於記憶體。
分散式計算（拓展自學）
1、離線的大資料分析系統
（Hadoop MapReduce，Spark Core）
2、線上的實時流處理分析
（Storm，Spark Streaming，Flink）

二、瞭解HDFS（hadoop分散式檔案系統）

HDFS借鑑了GFS的資料冗餘度思想
存在批量的硬碟；【DataNode 資料節點】
HDFS預設冗餘度為“3”，就是一份同樣資料儲存三份；
利用“水平復制”提升上傳效率；
以“資料塊”作為單位進行資料傳輸（1.x版本 64m、2.x版本 128m）；
存在一個“管理員”進行管控排程【NameNode 名稱節點】
hadoop的安裝模式（三種）
本地模式（一臺）、偽分佈模式（一臺）、全分佈環境（至少三臺）
HDFS區別其他分散式檔案系統：
①是一個高容錯性系統——高容錯性（fault-tolerant）
②提供高吞吐量的資料訪問——高吞吐量（high throughput）
③廉價機器，成本低——（low-cost）
④超大資料儲存——超大資料集（large data set）

三、HDFS環境搭建（偽分散式，單機跨程序）

安裝好Linux64位後，執行操作啟用ip

ifconfig -a		//檢視ip情況
vi /etc/sysconfig/network-scripts/ifcfg-eth0	//進入vi編輯，多使用tab補全避免出錯
//將onboot改成yes
儲存編輯後
ifup eth0	//啟動eth0
ifconfig -a		//檢視ip生效否（我的inet addr是192.168.153.137）

關閉防火牆

[[email protected] ~]# service iptables stop
iptables: Setting chains to policy ACCEPT: filter          [  OK  ]
iptables: Flushing firewall rules:                         [  OK  ]
iptables: Unloading modules:                               [  OK  ]
[[email protected] ~]# chkconfig iptables off

軟體需求

CentOS-6.5-x86_64-minimal.iso
jdk-8u171-linux-x64.rpm

建議，修改主機名

[[email protected] ~]# vi /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=CentOS
[[email protected] ~]# reboot # 重啟虛擬機器

配置主機名和ip對映關係

vi /etc/hosts	#配置主機名和IP對映關係
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.153.137 CentOS	#新增這一句

ping Centos	#能夠ping通，表示正常

安裝JDK jdk-8u171-linux-x64.rpm

yum install -y lrzsz	#安裝外掛，支援彈出視窗上傳
rz	#開啟視窗上傳
//上傳jdk
rpm -ivh jdk-8u171-linux-x64.rpm	#安裝
ls /usr/	#檢視下是否安裝上

vi /root/.bashrc	#編輯環境變數，如下（已將下方的HADOOP的環境變數也配置了）

HADOOP_HOME=/usr/hadoop-2.6.0
JAVA_HOME=/usr/java/latest
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
CLASSPATH=.
export JAVA_HOME
export PATH
export CLASSPATH
export HADOOP_HOME

source /root/.bashrc	#載入當前環境變數
java -version	#檢視下，是否配置上

如果，解除安裝RPM安裝的JDK

[[email protected] ~]# rpm -qa | grep jdk	#檢視
jdk1.8-1.8.0_171-fcs.x86_64
[[email protected] ~]# rpm -e jdk1.8-1.8.0_171-fcs.x86_64	#解除安裝

SSH 免密碼認證（本機免密碼登入自己）

ssh-keygen -t rsa	#加密演算法加密
ssh-copy-id CentOS	#第一次

安裝HDFS（解壓配置HADOOP_HOME） hadoop-2.6.0_x64.tar.gz

tar -zxf hadoop-2.6.0_x64.tar.gz -C /usr/
#配置環境變數，ps上邊已經配過

後續課程中Hbase、Hive、Spark On Yarn都需要識別系統的HADOOP_HOME

配置Hadoop的配置檔案etc/hadoop目錄下*
core-site.xml

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://CentOS:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/hadoop-2.6.0/hadoop-${user.name}</value>
</property>

參考：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/core-default.xml

hdfs-site.xml

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

參考：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

slaves

CentOS	#將localhost改成CentOS

參考:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

啟動HDFS

#第一次啟動，需要格式化namenode，要初始化fsimage映象
hdfs namenode -format
#指令 啟動hdfs/停止hdfs 注意：沒有空格
start-dfs.sh |stop-dfs.sh 
#檢視 java程序 jps
[[email protected] ~]# jps
3217 Jps
2979 DataNode
3115 SecondaryNameNode
1935 NameNode

正常，可以嘗試啟動瀏覽器：http://192.168.153.137:50070/

四、HDFS Shell（HDFS的shell命令）

[[email protected] ~]# hdfs dfs -help	# 或者hadoop fs -help 檢視幫助，檢視命令
Usage: hadoop fs [generic options]

	-appendToFile 	#追加檔案
	-cat 	#檢視檔案
	-chmod 	#修改檔案rwx全新啊
	-copyFromLocal 	#同 -put 拷貝
	-copyToLocal 	#同 -get 拷貝	（跨平臺 Linux和HDFS之間）
	-rm 	#刪除檔案
	-mv 	#移動，剪下
	-cp 	#拷貝（HDFS內的操作）
	-touchz #建立空檔案
	-text 	#檢視
	-tail 	#尾部檢視

五、JavaAPI操作HDFS

Windows測試HDFS API 注意事項

解壓hadoop安裝包並在Windows 配置HADOOP_HOME環境變數
將hadoop_dll2.6.0_64bit.zip中的winutils.exe、hadoop.dll檔案拷貝到Hadoop的bin目錄下
在Win7 上配置CentOS和IP的對映關係C:\Windows\System32\drivers\etc下hosts檔案追加

192.168.153.137 CentOS

重啟IDEA 確保開發編輯器可以識別 HADOOP_HOME

匯入依賴

	<dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>4.12</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-common</artifactId>
      <version>2.6.0</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-hdfs</artifactId>
      <version>2.6.0</version>
    </dependency>

測試

解決HADOOP寫許可權問題？
①解決方案一、關閉HDFS許可權檢查
修改hdfs-site.xml重啟hdfs

<property>
    <name>dfs.permissions.enabled</name>
    <value>false</value>
</property>

②解決方案二、欺騙hadoop，讓程式認為是root使用者在寫資料（修改java啟動虛擬機器引數），如下圖

程式碼示例

import org.apache.commons.io.IOUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.Before;
import org.junit.Test;

import java.io.*;
/**
 * Created by Turing on 2018/12/3
 */

public class HDFSDemo {
    private FileSystem fileSystem;

    @Before
    public void before() throws IOException {
        Configuration conf = new Configuration();

        conf.set("fs.defaultFS","hdfs://CentOS:9000");//core-site.xml
        conf.set("dfs.replication","1");
        fileSystem=FileSystem.get(conf);
    }

    /**
     * 上傳1
     * @throws IOException
     */
    @Test
    public void testUpload() throws IOException {
        FileInputStream is = new FileInputStream("C:\\Users\\Administrator\\Desktop\\study.txt");
        Path path = new Path("/hdfs_study1.txt");
        OutputStream os= (OutputStream) fileSystem.create(path);
        IOUtils.copy(is,os);    //org.apache.commons.io.IOUtils;
        is.close();
        os.close();
    }

    /**
     * 下載1
     * @throws IOException
     */
    @Test
    public void testDownload() throws IOException {
        OutputStream os = new FileOutputStream("C:\\Users\\Administrator\\Desktop\\study222.txt");
        Path path = new Path("/hdfs_study1.txt");
        InputStream is= (InputStream) fileSystem.open(path);
        org.apache.hadoop.io.IOUtils.copyBytes(is,os,1024,true);
    }


    /**
     * 上傳2
     */
    @Test
    public void testUpload02() throws IOException {
        Path src=new Path("C:\\Users\\Administrator\\Desktop\\study222.txt");
        Path dst = new Path("/hdfs_study333.txt");
        fileSystem.copyFromLocalFile(src,dst);
    }

    /**
     * 下載2
     * @throws IOException
     */
    @Test
    public void testDownLoad02() throws IOException {
        Path dst=new Path("C:\\Users\\Administrator\\Desktop\\study333.txt");
        Path src = new Path("/hdfs_study1.txt");
        //如果出錯了，嘗試使用過載方法
        //fileSystem.copyToLocalFile(src,dst);
        fileSystem.copyToLocalFile(false,src,dst,true);
    }

    /**
     * 刪除
     * @throws IOException
     */
    @Test
    public void testDelete() throws IOException {
        Path src = new Path("/aa1.csv");
        //第二個引數 boolean recursive 是否遞迴刪除
        fileSystem.delete(src,true);
    }

    /**
     * 建立資料夾
     * @throws IOException
     */
    @Test
    public void testMkdir() throws IOException {
        Path src = new Path("/day1/study4");
        fileSystem.mkdirs(src);
    }

    /**
     * 遞迴遍歷檔案（只檔案）
     * @throws IOException
     */
    @Test
    public void testListFiles() throws IOException {
        Path src = new Path("/");
        RemoteIterator<LocatedFileStatus> files = fileSystem.listFiles(src, true);
        while (files.hasNext()){
            LocatedFileStatus file = files.next();
            System.out.println(file.getPath()+" "+file.isDirectory());
        }
    }

    /**
     * 遍歷根下檔案
     * @throws IOException
     */
    @Test
    public void testListFileStatus() throws IOException {
        Path src = new Path("/");
        FileStatus[] fileStatuses = fileSystem.listStatus(src);
        for (FileStatus fileStatus : fileStatuses) {
            System.out.println(fileStatus.getPath()+" "+fileStatus.isDirectory());
        }
    }
}

Day3.Hadoop學習筆記1

零、概述一、概述 Hadoop衍生自Nutch（搜尋引擎和web爬蟲），面臨的問題：海量資料儲存和計算 Big Data大資料，談的不僅僅是資料量，其實包含了資料量（Volume）、時效性（Velocity）、多樣性（Variety）、可疑性（Veracity）

hadoop學習筆記(1)

ppi datanode ati fonts 管理系 ive 監控 system 分配 1.HDFS架構： NameNode保存元數據信息，包含文件的owner，permission。block存儲信息等。存儲在內存。 2.HDFS設計思想

hadoop學習筆記1---Hadoop體系介紹

hadoop1、NamenodeHDFS的守護進程記錄文件時如何分割成數據塊的，以及這些數據塊被存儲到哪些節點上對內存和I/O進行集中管理是個單點，發生故障將使集群崩潰2、Secondary Namenode監控HDFS狀態的輔助後臺程序每個集群都有一個與NameNode進行通訊定期保存HDFS元數據快照當N

零基礎大資料HADOOP學習-筆記1

一、大資料的4V特徵 Volume 資料量大 TB PB Varity 的資料多種多樣文字（.log .txt .sql .xml） Veracity 價值密度低商業價值高 Velocity 速度快二、Hado

Hadoop學習筆記—1.基本介紹與環境配置

一、Hadoop的發展歷史　　說到Hadoop的起源，不得不說到一個傳奇的IT公司—全球IT技術的引領者Google。Google（自稱）為雲端計算概念的提出者，在自身多年的搜尋引擎業務中構建了突破性的GFS（Google File System），從此檔案系統進入分散式時代。除此之外，Google在

Hadoop學習筆記（Day1：Hadoop家族體系、權威指南1、2.4章）

<本系列文章主要供自己學習Hadoop技術筆記用> 1）Hadoop家族體系 Hadoop家族成員概述這篇文章簡明扼要地介紹了Hadoop家族各個成員的功能。這篇文章除了介紹家族成員外，還介紹了其學習路線圖。 2）Hadoop權威指南 2.4.1

java大資料最全課程學習筆記(1)--Hadoop簡介和安裝及偽分散式

> 目前[CSDN](https://blog.csdn.net/weixin_42208775),[部落格園](https://home.cnblogs.com/u/gitBook/),[簡書](https://www.jianshu.com/u/da41700fde04)同步發表中,更多精彩歡迎訪問

avalonjs 學習筆記1---checkbox

nod item ack lex server ini npm 學習 define 一、vscode 安裝使用 1.vs code+node.js下載安裝 2.在node.js command prompt 中運行 npm install -g live-server 3

hadoop學習筆記-HDFS的REST接口

字段 edi -o created hadoop ftw rar hdfs lang 在學習HDFS的過程中，重點關註了HDFS的REST訪問接口。以前對REST的認識非常籠統，這次通過對HDFS的REST接口進行實際操作，形成很直觀的認識。 1? 寫文件操作寫文件

微信小程序學習筆記1

接口 spa class 搭建 name demo title 更新數據 navigate 初步接觸微信小程序開發微信小程序的開發環境　　　　微信小程序是運行在微信環境中的應用，它只能在微信中運行，不能運行在瀏覽器等其他環境中，微信團隊提供了專門開發工具用於小程

mysql學習筆記(1-安裝簡介)

配置文件服務器二進制 mysql 通用 mysql的安裝方式：(1)通過系統提供的默認版本(穩定版，該版本滿足了使用的需求，建議使用，os vendor)(2)mysql官方提供官方提供的通用rpm安裝包官方提供的文件，以文件覆蓋的方式安裝源碼包編譯安裝

Python學習筆記1

bsp 面向對象解釋型基本 ges mon xxx str text 一、什麽是Python 　　Python是面向對象、解釋型的計算機語言；語法簡潔、優雅、易學。　　在1989誕生，Guido(龜叔)開發。龜叔非常喜歡一部叫做《Monty Python飛行馬戲團》的

java 學習筆記1

跨平臺原理所有 com 路徑運行機制 main 單位 width rtu 、高級語言運行機制高級語言按程序的執行方式分為編譯型和解釋型兩種。 java語言比較特殊，Java程序的執行必須經過先編譯後解釋的步驟。 1 編譯生成字節碼，只面向JVM(.class) 2J

Java Web學習筆記-1

根路徑 text .get set 接口 context cat 方法 web應用 1.servlet理論上可以處理多種形式的請求響應形式 ,http只是其中之一 ,所以HttpServletRequest、 HttpServletResponse分別是ServletReq

Hadoop 學習筆記 (2) -- 關於MapReduce

規模 pre 分析 bsp 學習筆記 reduce 數據中心階段圖例 1. MapReduce 定義: 是一種可用於數據處理的編程的模型優勢: MapReduce 本質上是並行運行的，因此可以將大規模的數據分析任務，分發給任何一個擁有足夠多機器

Redis學習筆記1--入門篇

ase list ica cati ctu apple string replace first 一、Redis簡介： Redis（http://redis.io）是一款開源的、高性能的鍵-值存儲（key-value store），它是用ANSI C來編寫。Redis的項目

Python學習筆記1安裝概述_20170610

lin 教程 linu 學習筆記 python學習版本 pyc module 選擇 python 的安裝概述：安裝Python3.6，教程很多需要安裝的module：（註意選擇版本）　numpy 　scipy 　matplotlib 以上，在Windows

深入理解 Java 虛擬機之學習筆記(1)

over 信息 hotspot 體系 ima 模塊化介紹 style 創建本書結構：從宏觀的角度介紹了整個Java技術體系、Java和JVM的發展歷程、模塊化，以及JDK的編譯講解了JVM的自動內存管理，包括虛擬機內存區域的劃分原理以及各種內存溢出異常產

MySql 基礎學習筆記 1——概述與基本數據類型：整型： 1）TINYINT 2)SMALLINT 3) MEDIUMINT 4)INT 5)BIGINT 主要是大小的差別圖浮點型：命令

where float 函數名 src ron 編碼方式永遠 -m mas 一、CMD中經常使用mysql相關命令 mysql -D, --database=name //打開數據庫 --delimiter=name //指定分隔符 -h, --host=na

機器學習筆記 1 LMS和梯度下降（批梯度下降） 20170617

temp eas 理解 import 樣本 alt mes show 超過 # 概念 LMS(least mean square)：（最小均方法）通過最小化均方誤差來求最佳參數的方法。 GD(gradient descent) : （梯度下降法）一種參數更新法則。可以作為L

Day3.Hadoop學習筆記1

零、概述

一、引言

二、瞭解HDFS（hadoop分散式檔案系統）

三、HDFS環境搭建（偽分散式，單機跨程序）

四、HDFS Shell（HDFS的shell命令）

五、JavaAPI操作HDFS

相關推薦