Hadoop 系列（七）—— HDFS Java API

阿新 • • 發佈：2019-12-31

一、簡介

想要使用 HDFS API，需要匯入依賴 hadoop-client。如果是 CDH 版本的 Hadoop，還需要額外指明其倉庫地址：

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 
         http://maven.apache.org/xsd/maven-4.0.0.xsd" 
>
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.heibaiying</groupId>
    <artifactId>hdfs-java-api</artifactId>
    <version>1.0</version>


    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding 
>
        <hadoop.version>2.6.0-cdh5.15.2</hadoop.version>
    </properties>


    <!---配置 CDH 倉庫地址-->
    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url 
>
        </repository>
    </repositories>


    <dependencies>
        <!--Hadoop-client-->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
            <scope>test</scope>
        </dependency>
    </dependencies>

</project>
複製程式碼

二、API的使用

2.1 FileSystem

FileSystem 是所有 HDFS 操作的主入口。由於之後的每個單元測試都需要用到它，這裡使用 @Before 註解進行標註。

private static final String HDFS_PATH = "hdfs://192.168.0.106:8020";
private static final String HDFS_USER = "root";
private static FileSystem fileSystem;

@Before
public void prepare() {
    try {
        Configuration configuration = new Configuration();
        // 這裡我啟動的是單節點的 Hadoop,所以副本系數設定為 1,預設值為 3
        configuration.set("dfs.replication","1");
        fileSystem = FileSystem.get(new URI(HDFS_PATH),configuration,HDFS_USER);
    } catch (IOException e) {
        e.printStackTrace();
    } catch (InterruptedException e) {
        e.printStackTrace();
    } catch (URISyntaxException e) {
        e.printStackTrace();
    }
}


@After
public void destroy() {
    fileSystem = null;
}
複製程式碼

2.2 建立目錄

支援遞迴建立目錄：

@Test
public void mkDir() throws Exception {
    fileSystem.mkdirs(new Path("/hdfs-api/test0/"));
}
複製程式碼

2.3 建立指定許可權的目錄

FsPermission(FsAction u,FsAction g,FsAction o) 的三個引數分別對應：建立者許可權，同組其他使用者許可權，其他使用者許可權，許可權值定義在 FsAction 列舉類中。

@Test
public void mkDirWithPermission() throws Exception {
    fileSystem.mkdirs(new Path("/hdfs-api/test1/"),new FsPermission(FsAction.READ_WRITE,FsAction.READ,FsAction.READ));
}
複製程式碼

2.4 建立檔案，並寫入內容

@Test
public void create() throws Exception {
    // 如果檔案存在，預設會覆蓋,可以通過第二個引數進行控制。第三個引數可以控制使用緩衝區的大小
    FSDataOutputStream out = fileSystem.create(new Path("/hdfs-api/test/a.txt"),true,4096);
    out.write("hello hadoop!".getBytes());
    out.write("hello spark!".getBytes());
    out.write("hello flink!".getBytes());
    // 強制將緩衝區中內容刷出
    out.flush();
    out.close();
}
複製程式碼

2.5 判斷檔案是否存在

@Test
public void exist() throws Exception {
    boolean exists = fileSystem.exists(new Path("/hdfs-api/test/a.txt"));
    System.out.println(exists);
}
複製程式碼

2.6 檢視檔案內容

檢視小文字檔案的內容，直接轉換成字串後輸出：

@Test
public void readToString() throws Exception {
    FSDataInputStream inputStream = fileSystem.open(new Path("/hdfs-api/test/a.txt"));
    String context = inputStreamToString(inputStream,"utf-8");
    System.out.println(context);
}
複製程式碼

inputStreamToString 是一個自定義方法，程式碼如下：

/**
 * 把輸入流轉換為指定編碼的字元
 *
 * @param inputStream 輸入流
 * @param encode      指定編碼型別
 */
private static String inputStreamToString(InputStream inputStream,String encode) {
    try {
        if (encode == null || ("".equals(encode))) {
            encode = "utf-8";
        }
        BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream,encode));
        StringBuilder builder = new StringBuilder();
        String str = "";
        while ((str = reader.readLine()) != null) {
            builder.append(str).append("\n");
        }
        return builder.toString();
    } catch (IOException e) {
        e.printStackTrace();
    }
    return null;
}
複製程式碼

2.7 檔案重新命名

@Test
public void rename() throws Exception {
    Path oldPath = new Path("/hdfs-api/test/a.txt");
    Path newPath = new Path("/hdfs-api/test/b.txt");
    boolean result = fileSystem.rename(oldPath,newPath);
    System.out.println(result);
}
複製程式碼

2.8 刪除目錄或檔案

public void delete() throws Exception {
    /*
     *  第二個引數代表是否遞迴刪除
     *    +  如果 path 是一個目錄且遞迴刪除為 true,則刪除該目錄及其中所有檔案;
     *    +  如果 path 是一個目錄但遞迴刪除為 false,則會則丟擲異常。
     */
    boolean result = fileSystem.delete(new Path("/hdfs-api/test/b.txt"),true);
    System.out.println(result);
}
複製程式碼

2.9 上傳檔案到HDFS

@Test
public void copyFromLocalFile() throws Exception {
    // 如果指定的是目錄，則會把目錄及其中的檔案都複製到指定目錄下
    Path src = new Path("D:\\BigData-Notes\\notes\\installation");
    Path dst = new Path("/hdfs-api/test/");
    fileSystem.copyFromLocalFile(src,dst);
}
複製程式碼

2.10 上傳大檔案並顯示上傳進度

@Test
    public void copyFromLocalBigFile() throws Exception {

        File file = new File("D:\\kafka.tgz");
        final float fileSize = file.length();
        InputStream in = new BufferedInputStream(new FileInputStream(file));

        FSDataOutputStream out = fileSystem.create(new Path("/hdfs-api/test/kafka5.tgz"),new Progressable() {
                  long fileCount = 0;

                  public void progress() {
                     fileCount++;
                     // progress 方法每上傳大約 64KB 的資料後就會被呼叫一次
                     System.out.println("上傳進度：" + (fileCount * 64 * 1024 / fileSize) * 100 + " %");
                   }
                });

        IOUtils.copyBytes(in,out,4096);

    }
複製程式碼

2.11 從HDFS上下載檔案

@Test
public void copyToLocalFile() throws Exception {
    Path src = new Path("/hdfs-api/test/kafka.tgz");
    Path dst = new Path("D:\\app\\");
    /*
     * 第一個引數控制下載完成後是否刪除原始檔,預設是 true,即刪除;
     * 最後一個引數表示是否將 RawLocalFileSystem 用作本地檔案系統;
     * RawLocalFileSystem 預設為 false,通常情況下可以不設定,* 但如果你在執行時候丟擲 NullPointerException 異常,則代表你的檔案系統與程式可能存在不相容的情況 (window 下常見),* 此時可以將 RawLocalFileSystem 設定為 true
     */
    fileSystem.copyToLocalFile(false,src,dst,true);
}
複製程式碼

2.12 檢視指定目錄下所有檔案的資訊

public void listFiles() throws Exception {
    FileStatus[] statuses = fileSystem.listStatus(new Path("/hdfs-api"));
    for (FileStatus fileStatus : statuses) {
        //fileStatus 的 toString 方法被重寫過，直接列印可以看到所有資訊
        System.out.println(fileStatus.toString());
    }
}
複製程式碼

FileStatus 中包含了檔案的基本資訊，比如檔案路徑，是否是資料夾，修改時間，訪問時間，所有者，所屬組，檔案許可權，是否是符號連結等，輸出內容示例如下：

FileStatus{
path=hdfs://192.168.0.106:8020/hdfs-api/test; 
isDirectory=true; 
modification_time=1556680796191; 
access_time=0; 
owner=root; 
group=supergroup; 
permission=rwxr-xr-x; 
isSymlink=false
}
複製程式碼

2.13 遞迴檢視指定目錄下所有檔案的資訊

@Test
public void listFilesRecursive() throws Exception {
    RemoteIterator<LocatedFileStatus> files = fileSystem.listFiles(new Path("/hbase"),true);
    while (files.hasNext()) {
        System.out.println(files.next());
    }
}
複製程式碼

和上面輸出類似，只是多了文字大小，副本系數，塊大小資訊。

LocatedFileStatus{
path=hdfs://192.168.0.106:8020/hbase/hbase.version; 
isDirectory=false; 
length=7; 
replication=1; 
blocksize=134217728; 
modification_time=1554129052916; 
access_time=1554902661455; 
owner=root; group=supergroup;
permission=rw-r--r--; 
isSymlink=false}
複製程式碼

2.14 檢視檔案的塊資訊

@Test
public void getFileBlockLocations() throws Exception {

    FileStatus fileStatus = fileSystem.getFileStatus(new Path("/hdfs-api/test/kafka.tgz"));
    BlockLocation[] blocks = fileSystem.getFileBlockLocations(fileStatus,0,fileStatus.getLen());
    for (BlockLocation block : blocks) {
        System.out.println(block);
    }
}
複製程式碼

塊輸出資訊有三個值，分別是檔案的起始偏移量 (offset)，檔案大小 (length)，塊所在的主機名 (hosts)。

0,57028557,hadoop001
複製程式碼

這裡我上傳的檔案只有 57M(小於 128M)，且程式中設定了副本系數為 1，所有隻有一個塊資訊。

以上所有測試用例下載地址：HDFS Java API

更多大資料系列文章可以參見 GitHub 開源專案： 大資料入門指南

Hadoop 系列（七）—— HDFS Java API

一、簡介想要使用 HDFS API，需要匯入依賴 hadoop-client。如果是 CDH 版本的 Hadoop，還需要額外指明其倉庫地址：

HBase 系列（六）——HBase Java API 的基本使用

一、簡述截至到目前 (2019.04)，HBase 有兩個主要的版本，分別是 1.x 和 2.x ，兩個版本的 Java API 有所不同，1.x 中某些方法在 2.x 中被標識為 @deprecated 過時。所以下面關於 API 的樣例，我會分別給出 1.x 和

Hadoop 系列（六）—— HDFS 常用 Shell 命令

1. 顯示當前目錄結構 # 顯示當前目錄結構 hadoop fs -ls<path> # 遞迴顯示當前目錄結構

Docker 系列（七）：Docker API使用

Docker API種類 docker 的api遵循rest的風格，可以檢視https://docs.docker.com/engine/api/；

Hadoop 系列（一）—— 分散式檔案系統 HDFS

一、介紹 HDFS （Hadoop Distributed File System）是 Hadoop 下的分散式檔案系統，具有高容錯、高吞吐量等特性，可以部署在低成本的硬體上。

Hadoop基礎（九）： HDFS客戶端操作（二） HDFS的API操作

1 基本操作 package com.atguigu.hdfsclient; import java.io.FileInputStream; import java.io.IOException;

Hadoop 學習筆記（七）HDFS 客戶端操作（下）

上面我們學的API操作HDFS系統都是框架封裝好的。那麼如果我們想自己實現上述API的操作該怎麼實現呢？我們可以採用IO流的方式實現資料的上傳和下載。

Flink 系列（七）—— Flink 狀態管理與檢查點機制

一、狀態分類相對於其他流計算框架，Flink 一個比較重要的特性就是其支援有狀態計算。即你可以將中間的計算結果進行儲存，並提供給後續的計算使用：

Hive 系列（七）—— Hive 常用 DML 操作

一、載入檔案資料到表 1.1 語法 LOAD DATA [LOCAL] INPATH \'filepath\' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)]

HBase 系列（七）——HBase 過濾器詳解

一、HBase過濾器簡介 Hbase 提供了種類豐富的過濾器（filter）來提高資料處理的效率，使用者可以通過內建或自定義的過濾器來對資料進行過濾，所有的過濾器都在服務端生效，即謂詞下推（predicate push down）。這樣可

Hadoop 系列（八）—— 基於 ZooKeeper 搭建 Hadoop 高可用叢集

一、高可用簡介 Hadoop 高可用 (High Availability) 分為 HDFS 高可用和 YARN 高可用，兩者的實現基本類似，但 HDFS NameNode 對資料儲存及其一致性的要求比 YARN ResourceManger 高得多，所以它的實現也更加複雜，故

Hadoop 系列（五）—— Hadoop 叢集環境搭建

一、叢集規劃這裡搭建一個 3 節點的 Hadoop 叢集，其中三臺主機均部署 DataNode 和 NodeManager 服務，但只有 hadoop001 上部署 NameNode 和 ResourceManager 服務。

Hadoop 系列（四）—— Hadoop 開發環境搭建

一、前置條件 Hadoop 的執行依賴 JDK，需要預先安裝，安裝步驟見： Linux 下 JDK 的安裝

Hadoop 系列（三）—— 分散式計算框架 MapReduce

一、MapReduce概述 Hadoop MapReduce 是一個分散式計算框架，用於編寫批處理應用程式。編寫好的程式可以提交到 Hadoop 叢集上用於並行處理大規模的資料集。

Hadoop 系列（二）—— 叢集資源管理器 YARN

一、hadoop yarn 簡介 Apache YARN (Yet Another Resource Negotiator)是 hadoop 2.0 引入的叢集資源管理系統。使用者可以將各種服務框架部署在 YARN 上，由 YARN 進行統一地管理和資源分配。

Scala 系列（七）—— 常用集合型別之 Map & Tuple

一、對映(Map) 1.1 構造Map // 初始化一個空 map val scores01 = new HashMap[String,Int] // 從指定的值初始化 Map（方式一）

Spark 系列（七）—— 基於 ZooKeeper 搭建 Spark 高可用叢集

一、叢集規劃這裡搭建一個 3 節點的 Spark 叢集，其中三臺主機上均部署 Worker 服務。同時為了保證高可用，除了在 hadoop001 上部署主 Master 服務外，還在 hadoop002 和 hadoop003 上分別部署備用的 Master 服務，

Storm 系列（七）—— Storm 整合 Redis 詳解

一、簡介 Storm-Redis 提供了 Storm 與 Redis 的整合支援，你只需要引入對應的依賴即可使用：

高併發 Nginx+Lua OpenResty系列（2）——Nginx Lua API

https://www.cnblogs.com/babycomeon/p/11109500.html Nginx Lua API 和一般的Web Server類似，我們需要接收請求、處理並輸出響應。而對於請求我們需要獲取如請求引數、請求頭、Body體等資訊；而對於處理就是呼叫

前端程式設計師學好算法系列（七）二叉樹和遞迴

144. 二叉樹的前序遍歷給定一個二叉樹，返回它的前序遍歷。示例: 輸入: [1,null,2,3]

Hadoop 系列（七）—— HDFS Java API

一、 簡介

二、API的使用

2.1 FileSystem

2.2 建立目錄

2.3 建立指定許可權的目錄

2.4 建立檔案，並寫入內容

2.5 判斷檔案是否存在

2.6 檢視檔案內容

2.7 檔案重新命名

2.8 刪除目錄或檔案

2.9 上傳檔案到HDFS

2.10 上傳大檔案並顯示上傳進度

2.11 從HDFS上下載檔案

2.12 檢視指定目錄下所有檔案的資訊

2.13 遞迴檢視指定目錄下所有檔案的資訊

2.14 檢視檔案的塊資訊

相關推薦

一、簡介