HDFS程式設計實踐

阿新 • • 發佈：2022-04-19

HDFS程式設計實踐

1、利用Shell命令與HDFS進行互動

Hadoop支援很多Shell命令，其中fs是HDFS最常用的命令，利用fs可以檢視HDFS檔案系統的目錄結構、上傳和下載資料、建立檔案等。

注意，實際上有三種shell命令方式。

hadoop fs適用於任何不同的檔案系統，比如本地檔案系統和HDFS檔案系統

hadoop dfs只能適用於HDFS檔案系統

hdfs dfs跟hadoop dfs的命令作用一樣，也只能適用於HDFS檔案系統

我們可以在終端輸入如下命令，檢視fs總共支援了哪些命令

hadoop@hadoop-master:~$ hadoop fs
Usage: hadoop fs [generic options]
	[-appendToFile <localsrc> ... <dst>]
	[-cat [-ignoreCrc] <src> ...]
	[-checksum <src> ...]
	[-chgrp [-R] GROUP PATH...]
	[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
	[-chown [-R] [OWNER][:[GROUP]] PATH...]
	[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>]
	[-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...]
	[-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
	[-createSnapshot <snapshotDir> [<snapshotName>]]
	[-deleteSnapshot <snapshotDir> <snapshotName>]
	[-df [-h] [<path> ...]]
	[-du [-s] [-h] [-v] [-x] <path> ...]
	[-expunge]
	[-find <path> ... <expression> ...]
	[-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-getfacl [-R] <path>]
	[-getfattr [-R] {-n name | -d} [-e en] <path>]
	[-getmerge [-nl] [-skip-empty-file] <src> <localdst>]
	[-head <file>]
	[-help [cmd ...]]
	[-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...]]
	[-mkdir [-p] <path> ...]
	[-moveFromLocal <localsrc> ... <dst>]
	[-moveToLocal <src> <localdst>]
	[-mv <src> ... <dst>]
	[-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
	[-renameSnapshot <snapshotDir> <oldName> <newName>]
	[-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]
	[-rmdir [--ignore-fail-on-non-empty] <dir> ...]
	[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
	[-setfattr {-n name [-v value] | -x name} <path>]
	[-setrep [-R] [-w] <rep> <path> ...]
	[-stat [format] <path> ...]
	[-tail [-f] [-s <sleep interval>] <file>]
	[-test -[defsz] <path>]
	[-text [-ignoreCrc] <src> ...]
	[-touch [-a] [-m] [-t TIMESTAMP ] [-c] <path> ...]
	[-touchz <path> ...]
	[-truncate [-w] <length> <path> ...]
	[-usage [cmd ...]]

在終端輸入如下命令，可以檢視具體某個命令的作用

例如：我們檢視put命令如何使用，可以輸入如下命令

hadoop@hadoop-master:~$ hadoop fs -help put
-put [-f] [-p] [-l] [-d] <localsrc> ... <dst> :
  Copy files from the local file system into fs. Copying fails if the file already
  exists, unless the -f flag is given.
  Flags:
                                                                       
  -p  Preserves access and modification times, ownership and the mode. 
  -f  Overwrites the destination if it already exists.                 
  -l  Allow DataNode to lazily persist the file to disk. Forces        
         replication factor of 1. This flag will result in reduced
         durability. Use with care.
                                                        
  -d  Skip creation of temporary file(<dst>._COPYING_).

1.1 目錄操作

需要注意的是，Hadoop系統安裝好以後，第一次使用HDFS時，需要首先在HDFS中建立使用者目錄。本教程全部採用hadoop使用者登入Linux系統，因此，需要在HDFS中為hadoop使用者建立一個使用者目錄，命令如下：

hadoop@hadoop-master:~$ hdfs dfs -mkdir -p /user/hadoop

該命令中表示在HDFS中建立一個“/user/hadoop”目錄，“–mkdir”是建立目錄的操作，“-p”表示如果是多級目錄，則父目錄和子目錄一起建立，這裡“/user/hadoop”就是一個多級目錄，因此必須使用引數“-p”，否則會出錯。
“/user/hadoop”目錄就成為hadoop使用者對應的使用者目錄，可以使用如下命令顯示HDFS中與當前使用者hadoop對應的使用者目錄下的內容：

hadoop@hadoop-master:~$ hdfs dfs -ls .

該命令中，“-ls”表示列出HDFS某個目錄下的所有內容，“.”表示HDFS中的當前使用者目錄，也就是“/user/hadoop”目錄，因此，上面的命令和下面的命令是等價的：

hadoop@hadoop-master:~$ hdfs dfs -ls /user/hadoop

如果要列出HDFS上的所有目錄，可以使用如下命令：

hadoop@hadoop-master:~$ hdfs dfs -ls

下面，可以使用如下命令建立一個input目錄：

hadoop@hadoop-master:~$ hdfs dfs -mkdir input

在建立個input目錄時，採用了相對路徑形式，實際上，這個input目錄建立成功以後，它在HDFS中的完整路徑是“/user/hadoop/input”。如果要在HDFS的根目錄下建立一個名稱為input的目錄，則需要使用如下命令：

hadoop@hadoop-master:~$ hdfs dfs -mkdir /input

可以使用rm命令刪除一個目錄，比如，可以使用如下命令刪除剛才在HDFS中建立的“/input”目錄（不是“/user/hadoop/input”目錄）：

hadoop@hadoop-master:~$ hdfs dfs -rm -r /input

上面命令中，“-r”引數表示如果刪除“/input”目錄及其子目錄下的所有內容，如果要刪除的一個目錄包含了子目錄，則必須使用“-r”引數，否則會執行失敗。

1.2 檔案操作

在實際應用中，經常需要從本地檔案系統向HDFS中上傳檔案，或者把HDFS中的檔案下載到本地檔案系統中。

首先，使用vim編輯器，在本地Linux檔案系統的“/home/hadoop/”目錄下建立一個檔案myLocalFile.txt，裡面可以隨意輸入一些單詞，比如，輸入如下三行：

hadoop@hadoop-master:~$ vim myLocalFile.txt
hadoop@hadoop-master:~$ cat myLocalFile.txt
Hadoop
Spark
XMU DBLAB

然後，可以使用如下命令把本地檔案系統的“/home/hadoop/myLocalFile.txt”上傳到HDFS中的當前使用者目錄的input目錄下，也就是上傳到HDFS的“/user/hadoop/input/”目錄下：

hadoop@hadoop-master:~$ hdfs dfs -put /home/hadoop/myLocalFile.txt input

可以使用ls命令檢視一下檔案是否成功上傳到HDFS中，具體如下：

hadoop@hadoop-master:~$ hdfs dfs -ls input/

該命令執行後會顯示類似如下的資訊：

Found 1 items
-rw-r--r--   1 hadoop supergroup         23 2022-04-18 10:09 input/myLocalFile.txt

下面使用如下命令檢視HDFS中的myLocalFile.txt這個檔案的內容：

hadoop@hadoop-master:~$ hdfs dfs -cat input/myLocalFile.txt
Hadoop
Spark
XMU DBLAB

下面把HDFS中的myLocalFile.txt檔案下載到本地檔案系統中的“/home/hadoop/下載/”這個目錄下，命令如下：

hadoop@hadoop-master:~$ hdfs dfs -get input/myLocalFile.txt /home/hadoop/

可以使用如下命令，到本地檔案系統檢視下載下來的檔案myLocalFile.txt：

hadoop@hadoop-master:~$ ls /home/hadoop/
myLocalFile.txt

最後，瞭解一下如何把檔案從HDFS中的一個目錄拷貝到HDFS中的另外一個目錄。比如，如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”檔案，拷貝到HDFS的另外一個目錄“/input”中（注意，這個input目錄位於HDFS根目錄下），可以使用如下命令：

hadoop@hadoop-master:~$ hdfs dfs -cp input/myLocalFile.txt /input

hadoop@hadoop-master:~$ hdfs dfs -ls /input
Found 1 items
-rw-r--r--   1 hadoop supergroup         23 2022-04-18 10:31 /input/myLocalFile.txt

2、利用Web介面管理HDFS

開啟Linux自帶的Firefox瀏覽器，點選此連結HDFS的Web介面，即可看到HDFS的web管理介面。WEB介面的訪問地址是http://localhost:9870。

3、利用Java API與HDFS進行互動

Hadoop不同的檔案系統之間通過呼叫Java API進行互動，上面介紹的Shell命令，本質上就是Java API的應用。下面提供了Hadoop官方的Hadoop API文件，想要深入學習Hadoop，可以訪問如下網站，檢視各個API的功能。

Hadoop API文件

利用Java API進行互動，需要利用軟體Eclipse編寫Java程式。

3.1 在Ubuntu中安裝Eclipse

Eclipse是常用的程式開發工具，本教程很多程式程式碼都是使用Eclipse開發除錯，因此，需要在Linux系統中安裝Eclipse。可以到Eclipse官網（https://www.eclipse.org/downloads/）下載安裝包。

下面執行如下命令對檔案進行解壓縮：

hadoop@hadoop-master:~$ sudo tar -xf eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local/

設定環境軟連線

hadoop@hadoop-master:~$ sudo mkdir -p /usr/local/eclipse/jre/bin/
hadoop@hadoop-master:~$ sudo ln -s /usr/lib/jvm/jdk1.8.0_162/bin/java /usr/local/eclipse/jre/bin/

然後，執行如下命令啟動Eclipse：

hadoop@hadoop-master:~$ cd /usr/local/eclipse/
hadoop@hadoop-master:/usr/local/eclipse$ ./eclipse

這時，就可以看到Eclipse的啟動介面了。

3.2 使用Eclipse開發除錯HDFS Java程式

Hadoop採用Java語言開發的，提供了Java API與HDFS進行互動。上面介紹的Shell命令，在執行時實際上會被系統轉換成Java API呼叫。Hadoop官方網站提供了完整的Hadoop API文件，想要深入學習Hadoop程式設計，可以訪問Hadoop官網檢視各個API的功能和用法。本教程只介紹基礎的HDFS程式設計。

為了提高程式編寫和除錯效率，本教程採用Eclipse工具編寫Java程式。

現在要執行的任務是：假設在目錄“hdfs://localhost:9000/user/hadoop”下面有幾個檔案，分別是file1.txt、file2.txt、file3.txt、file4.abc和file5.abc，這裡需要從該目錄中過濾出所有後綴名不為“.abc”的檔案，對過濾之後的檔案進行讀取，並將這些檔案的內容合併到檔案“hdfs://localhost:9000/user/hadoop/merge.txt”中。

3.2.1 在Eclipse中建立專案

啟動Eclipse。當Eclipse啟動以後，會彈出如下圖所示介面，提示設定工作空間（workspace）。

可以直接採用預設的設定/home/hadoop/workspace，點選launch按鈕。可以看出，由於當前是採用hadoop使用者登入了Linux系統，因此，預設的工作空間目錄位於hadoop使用者目錄/home/hadoop下。

Eclipse啟動以後，會呈現如下圖所示的介面。

選擇“File–>New–>Java Project”選單，開始建立一個Java工程，會彈出如下圖所示介面。

在Project name後面輸入工程名稱HDFSExample，選中Use default location，讓這個Java工程的所有檔案都儲存到/home/hadoop/workspace/HDFSExample目錄下。在“JRE”這個選項卡中，可以選擇當前的Linux系統中已經安裝好的JDK，比如jdk1.8.0_162。然後，點選介面底部的Next>按鈕，進入下一步的設定。

3.2.2 為專案新增需要用到的JAR包

進入下一步的設定以後，會彈出如下圖所示介面。

需要在這個介面中載入該Java工程所需要用到的JAR包，這些JAR包中包含了可以訪問HDFS的Java API。這些JAR包都位於Linux系統的Hadoop安裝目錄下，對於本教程而言，就是在/usr/local/hadoop/share/hadoop目錄下。點選介面中的“Libraries”選項卡，然後，點選介面右側的Add External JARs…按鈕，會彈出如下圖所示介面。

在該介面中，上面的一排目錄按鈕（即usr、local、hadoop、share、hadoop和common），當點選某個目錄按鈕時，就會在下面列出該目錄的內容。
為了編寫一個能夠與HDFS互動的Java應用程式，一般需要向Java工程中新增以下JAR包：

/usr/local/hadoop/share/hadoop/common目錄下的所有JAR包，包括hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar，注意，不包括目錄jdiff、lib、sources和webapps；

/usr/local/hadoop/share/hadoop/common/lib目錄下的所有JAR包；

/usr/local/hadoop/share/hadoop/hdfs目錄下的所有JAR包，注意，不包括目錄jdiff、lib、sources和webapps；

/usr/local/hadoop/share/hadoop/hdfs/lib目錄下的所有JAR包。
比如，如果要把/usr/local/hadoop/share/hadoop/common目錄下的hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar新增到當前的Java工程中，可以在介面中點選目錄按鈕，進入到common目錄，然後，介面會顯示出common目錄下的所有內容（如下圖所示）。

請在介面中用滑鼠點選選中hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar（不要選中目錄jdiff、lib、sources和webapps），然後點選介面右下角的“確定”按鈕，就可以把這兩個JAR包增加到當前Java工程中，出現的介面如下圖所示。

從這個介面中可以看出，hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar已經被新增到當前Java工程中。然後，按照類似的操作方法，可以再次點選Add External JARs…按鈕，把剩餘的其他JAR包都新增進來。需要注意的是，當需要選中某個目錄下的所有JAR包時，可以使用Ctrl+A組合鍵進行全選操作。全部新增完畢以後，就可以點選介面右下角的Finish按鈕，完成Java工程HDFSExample的建立。

3.2.3 編寫Java應用程式

下面編寫一個Java應用程式。

請在Eclipse工作介面左側的Package Explorer面板中（如下圖所示），找到剛才建立好的工程名稱HDFSExample，然後在該工程名稱上點選滑鼠右鍵，在彈出的選單中選擇New–>Class選單。

選擇New–>Class選單以後會出現如下圖所示介面。

在該介面中，只需要在Name後面輸入新建的Java類檔案的名稱，這裡採用名稱MergeFile，其他都可以採用預設設定，然後，點選介面右下角Finish按鈕，出現如下圖所示介面。

可以看出，Eclipse自動建立了一個名為“MergeFile.java”的原始碼檔案，請在該檔案中輸入以下程式碼：

import java.io.IOException;
import java.io.PrintStream;
import java.net.URI;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
 
/**
 * 過濾掉檔名滿足特定條件的檔案 
 */
class MyPathFilter implements PathFilter {
     String reg = null; 
     MyPathFilter(String reg) {
          this.reg = reg;
     }
     public boolean accept(Path path) {
        if (!(path.toString().matches(reg)))
            return true;
        return false;
    }
}
/***
 * 利用FSDataOutputStream和FSDataInputStream合併HDFS中的檔案
 */
public class MergeFile {
    Path inputPath = null; //待合併的檔案所在的目錄的路徑
    Path outputPath = null; //輸出檔案的路徑
    public MergeFile(String input, String output) {
        this.inputPath = new Path(input);
        this.outputPath = new Path(output);
    }
    public void doMerge() throws IOException {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","hdfs://localhost:9000");
          conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
        FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);
        FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);
                //下面過濾掉輸入目錄中字尾為.abc的檔案
        FileStatus[] sourceStatus = fsSource.listStatus(inputPath,
                new MyPathFilter(".*\\.abc")); 
        FSDataOutputStream fsdos = fsDst.create(outputPath);
        PrintStream ps = new PrintStream(System.out);
        //下面分別讀取過濾之後的每個檔案的內容，並輸出到同一個檔案中
        for (FileStatus sta : sourceStatus) {
            //下面列印字尾不為.abc的檔案的路徑、檔案大小
            System.out.print("路徑：" + sta.getPath() + "    檔案大小：" + sta.getLen()
                    + "   許可權：" + sta.getPermission() + "   內容：");
            FSDataInputStream fsdis = fsSource.open(sta.getPath());
            byte[] data = new byte[1024];
            int read = -1;
 
            while ((read = fsdis.read(data)) > 0) {
                ps.write(data, 0, read);
                fsdos.write(data, 0, read);
            }
            fsdis.close();          
        }
        ps.close();
        fsdos.close();
    }
    public static void main(String[] args) throws IOException {
        MergeFile merge = new MergeFile(
                "hdfs://localhost:9000/user/hadoop/",
                "hdfs://localhost:9000/user/hadoop/merge.txt");
        merge.doMerge();
    }
}

3.2.4 編譯執行程式

在開始編譯執行程式之前，請一定確保Hadoop已經啟動執行，如果還沒有啟動，需要開啟一個Linux終端，輸入以下命令啟動Hadoop：

cd /usr/local/hadoop
./sbin/start-dfs.sh

然後，要確保HDFS的“/user/hadoop”目錄下已經存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc，每個檔案裡面有內容。這裡，假設檔案內容如下：

file1.txt的內容是： this is file1.txt
file2.txt的內容是： this is file2.txt
file3.txt的內容是： this is file3.txt
file4.abc的內容是： this is file4.abc
file5.abc的內容是： this is file5.abc

現在就可以編譯執行上面編寫的程式碼。可以直接點選Eclipse工作介面上部的執行程式的快捷按鈕，當把滑鼠移動到該按鈕上時，在彈出的選單中選擇Run As，繼續在彈出來的選單中選擇Java Application，如下圖所示。

然後，會彈出如下圖所示介面。

在該介面中，點選介面右下角的OK按鈕，開始執行程式。程式執行結束後，會在底部的Console面板中顯示執行結果資訊（如下圖所示）。同時，Console面板中還會顯示一些類似log4j:WARN…的警告資訊，可以不用理會。

如果程式執行成功，這時，可以到HDFS中檢視生成的merge.txt檔案，比如，可以在Linux終端中執行如下命令：

hadoop@hadoop-master:~$ hdfs dfs -ls .
hadoop@hadoop-master:~$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt

3.2.5 應用程式的部署

下面介紹如何把Java應用程式生成JAR包，部署到Hadoop平臺上執行。首先，在Hadoop安裝目錄下新建一個名稱為myapp的目錄，用來存放我們自己編寫的Hadoop應用程式，可以在Linux的終端中執行如下命令：

hadoop@hadoop-master:~$ cd /usr/local/hadoop
hadoop@hadoop-master:/usr/local/hadoop$ sudo mkdir myapp

然後，請在Eclipse工作介面左側的Package Explorer面板中，在工程名稱HDFSExample上點選滑鼠右鍵，在彈出的選單中選擇Export，如下圖所示。

然後，會彈出如下圖所示介面。

在該介面中，選擇Runnable JAR file，然後，點選Next>按鈕，彈出如下圖所示介面。

在該介面中，Launch configuration用於設定生成的JAR包被部署啟動時執行的主類，需要在下拉列表中選擇剛才配置的類MergeFile-HDFSExample。在Export destination中需要設定JAR包要輸出儲存到哪個目錄，比如，這裡設定為/usr/local/hadoop/myapp/HDFSExample.jar。在Library handling下面選擇Extract required libraries into generated JAR。然後，點選Finish按鈕，會出現如下圖所示介面。

可以忽略該介面的資訊，直接點選介面右下角的OK按鈕，啟動打包過程。打包過程結束後，會出現一個警告資訊介面，如下圖所示。

可以忽略該介面的資訊，直接點選介面右下角的OK按鈕。至此，已經順利把HDFSExample工程打包生成了HDFSExample.jar。可以到Linux系統中檢視一下生成的HDFSExample.jar檔案，可以在Linux的終端中執行如下命令：

hadoop@hadoop-master:/usr/local/hadoop$ ll /usr/local/hadoop/myapp/
總用量 56332
drwxr-xr-x  2 root root     4096  4月 18 16:13 ./
drwxr-xr-x 12 root root     4096  4月 18 16:03 ../
-rw-r--r--  1 root root 57673000  4月 18 16:13 HDFSExample.jar

可以看到，/usr/local/hadoop/myapp目錄下已經存在一個HDFSExample.jar檔案。

由於之前已經執行過一次程式，已經生成了merge.txt，因此，需要首先執行如下命令刪除該檔案：

hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -rm -r merge.txt

現在，就可以在Linux系統中，使用hadoop jar命令執行程式，命令如下：

hadoop@hadoop-master:/usr/local/hadoop$ hadoop jar ./myapp/HDFSExample.jar

上面程式執行結束以後，可以到HDFS中檢視生成的merge.txt檔案，比如，可以在Linux終端中執行如下命令：

hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -ls .
Found 8 items
......
merge.txt
drwxrwxrwx   - hadoop supergroup          0 2022-04-14 19:38 
......

hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt

4、附錄：自己練習用的程式碼檔案

下面給出幾個程式碼檔案，供讀者自己練習。

4.1 寫入檔案

        import org.apache.hadoop.conf.Configuration;  
        import org.apache.hadoop.fs.FileSystem;
        import org.apache.hadoop.fs.FSDataOutputStream;
        import org.apache.hadoop.fs.Path;
 
        public class Chapter3 {    
                public static void main(String[] args) { 
                        try {
                                Configuration conf = new Configuration();  
                                conf.set("fs.defaultFS","hdfs://localhost:9000");
                                conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
                                FileSystem fs = FileSystem.get(conf);
                                byte[] buff = "Hello world".getBytes(); // 要寫入的內容
                                String filename = "test"; //要寫入的檔名
                                FSDataOutputStream os = fs.create(new Path(filename));
                                os.write(buff,0,buff.length);
                                System.out.println("Create:"+ filename);
                                os.close();
                                fs.close();
                        } catch (Exception e) {  
                                e.printStackTrace();  
                        }  
                }  
        }

4.2 判斷檔案是否存在

        import org.apache.hadoop.conf.Configuration;
        import org.apache.hadoop.fs.FileSystem;
        import org.apache.hadoop.fs.Path;
 
        public class Chapter3 {
                public static void main(String[] args) {
                            try {
                                    String filename = "test";
 
                                    Configuration conf = new Configuration();
                                    conf.set("fs.defaultFS","hdfs://localhost:9000");
                                    conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
                                    FileSystem fs = FileSystem.get(conf);
                                    if(fs.exists(new Path(filename))){
                                            System.out.println("檔案存在");
                                    }else{
                                            System.out.println("檔案不存在");
                                    }
                                    fs.close();
                        } catch (Exception e) {
                                e.printStackTrace();
                        }
                }
        }

4.3 讀取檔案

        import java.io.BufferedReader;
        import java.io.InputStreamReader;
 
        import org.apache.hadoop.conf.Configuration;
        import org.apache.hadoop.fs.FileSystem;
        import org.apache.hadoop.fs.Path;
        import org.apache.hadoop.fs.FSDataInputStream;
 
        public class Chapter3 {
                public static void main(String[] args) {
                        try {
                                Configuration conf = new Configuration();
                                conf.set("fs.defaultFS","hdfs://localhost:9000");
                                conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
                                FileSystem fs = FileSystem.get(conf);
                                Path file = new Path("test"); 
                                FSDataInputStream getIt = fs.open(file);
                                BufferedReader d = new BufferedReader(new InputStreamReader(getIt));
                                String content = d.readLine(); //讀取檔案一行
                                System.out.println(content);
                                d.close(); //關閉檔案
                                fs.close(); //關閉hdfs
                        } catch (Exception e) {
                                e.printStackTrace();
                        }
                }
        }

本文參考：http://dblab.xmu.edu.cn/blog/2460-2/

HDFS程式設計實踐

HDFS程式設計實踐

1、利用Shell命令與HDFS進行互動

1.1 目錄操作

1.2 檔案操作

2、利用Web介面管理HDFS

3、利用Java API與HDFS進行互動

3.1 在Ubuntu中安裝Eclipse

3.2 使用Eclipse開發除錯HDFS Java程式

3.2.1 在Eclipse中建立專案

3.2.2 為專案新增需要用到的JAR包

3.2.3 編寫Java應用程式

3.2.4 編譯執行程式

3.2.5 應用程式的部署

4、附錄：自己練習用的程式碼檔案

4.1 寫入檔案

4.2 判斷檔案是否存在

4.3 讀取檔案

HDFS程式設計實踐（Hadoop3.1.3）

參考大資料廈門大學林子雨編著的《大資料技術原理與應用（第3版）》中第三課《HDFS程式設計實踐（Hadoop3.1.3）》遇到的bug

HDFS程式設計實踐

實驗二HDFS程式設計實踐

《java併發程式設計實踐》---第6章任務執行

Java併發程式設計實踐

看雪-課程-Windows核心安全程式設計實踐之路-筆記

Java併發程式設計實踐——讀書筆記(一)

基於Python的Spark Streaming+Kafka程式設計實踐

hadoop 實驗三 JAVA程式設計實踐

c++程式設計實踐——銀行系統

Storm實時計算：流操作入門程式設計實踐

C語言初級程式設計實踐：2048小遊戲

小學四則運算程式設計實踐

Datawhale程式設計實踐（Pandas） Task02

Linux程式設計實踐檔案操作

jQuery外掛程式設計實踐(Step1)

OpenCV程式設計實踐小結

jQuery外掛程式設計實踐(Step2)

web程式設計實踐

HDFS程式設計實踐

HDFS程式設計實踐

1、利用Shell命令與HDFS進行互動

1.1 目錄操作

1.2 檔案操作

2、利用Web介面管理HDFS

3、利用Java API與HDFS進行互動

3.1 在Ubuntu中安裝Eclipse

3.2 使用Eclipse開發除錯HDFS Java程式

3.2.1 在Eclipse中建立專案

3.2.2 為專案新增需要用到的JAR包

3.2.3 編寫Java應用程式

3.2.4 編譯執行程式

3.2.5 應用程式的部署

4、附錄：自己練習用的程式碼檔案

4.1 寫入檔案

4.2 判斷檔案是否存在

4.3 讀取檔案

相關推薦