1. 程式人生 > 其它 >HDFS程式設計實踐

HDFS程式設計實踐

HDFS程式設計實踐

1、利用Shell命令與HDFS進行互動

Hadoop支援很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以檢視HDFS檔案系統的目錄結構、上傳和下載資料、建立檔案等。

注意,實際上有三種shell命令方式。

  • hadoop fs適用於任何不同的檔案系統,比如本地檔案系統和HDFS檔案系統
  • hadoop dfs只能適用於HDFS檔案系統
  • hdfs dfs跟hadoop dfs的命令作用一樣,也只能適用於HDFS檔案系統

我們可以在終端輸入如下命令,檢視fs總共支援了哪些命令

hadoop@hadoop-master:~$ hadoop fs
Usage: hadoop fs [generic options]
	[-appendToFile <localsrc> ... <dst>]
	[-cat [-ignoreCrc] <src> ...]
	[-checksum <src> ...]
	[-chgrp [-R] GROUP PATH...]
	[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
	[-chown [-R] [OWNER][:[GROUP]] PATH...]
	[-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>]
	[-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...]
	[-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
	[-createSnapshot <snapshotDir> [<snapshotName>]]
	[-deleteSnapshot <snapshotDir> <snapshotName>]
	[-df [-h] [<path> ...]]
	[-du [-s] [-h] [-v] [-x] <path> ...]
	[-expunge]
	[-find <path> ... <expression> ...]
	[-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
	[-getfacl [-R] <path>]
	[-getfattr [-R] {-n name | -d} [-e en] <path>]
	[-getmerge [-nl] [-skip-empty-file] <src> <localdst>]
	[-head <file>]
	[-help [cmd ...]]
	[-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...]]
	[-mkdir [-p] <path> ...]
	[-moveFromLocal <localsrc> ... <dst>]
	[-moveToLocal <src> <localdst>]
	[-mv <src> ... <dst>]
	[-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
	[-renameSnapshot <snapshotDir> <oldName> <newName>]
	[-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]
	[-rmdir [--ignore-fail-on-non-empty] <dir> ...]
	[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
	[-setfattr {-n name [-v value] | -x name} <path>]
	[-setrep [-R] [-w] <rep> <path> ...]
	[-stat [format] <path> ...]
	[-tail [-f] [-s <sleep interval>] <file>]
	[-test -[defsz] <path>]
	[-text [-ignoreCrc] <src> ...]
	[-touch [-a] [-m] [-t TIMESTAMP ] [-c] <path> ...]
	[-touchz <path> ...]
	[-truncate [-w] <length> <path> ...]
	[-usage [cmd ...]]

在終端輸入如下命令,可以檢視具體某個命令的作用

例如:我們檢視put命令如何使用,可以輸入如下命令

hadoop@hadoop-master:~$ hadoop fs -help put
-put [-f] [-p] [-l] [-d] <localsrc> ... <dst> :
  Copy files from the local file system into fs. Copying fails if the file already
  exists, unless the -f flag is given.
  Flags:
                                                                       
  -p  Preserves access and modification times, ownership and the mode. 
  -f  Overwrites the destination if it already exists.                 
  -l  Allow DataNode to lazily persist the file to disk. Forces        
         replication factor of 1. This flag will result in reduced
         durability. Use with care.
                                                        
  -d  Skip creation of temporary file(<dst>._COPYING_).

1.1 目錄操作

需要注意的是,Hadoop系統安裝好以後,第一次使用HDFS時,需要首先在HDFS中建立使用者目錄。本教程全部採用hadoop使用者登入Linux系統,因此,需要在HDFS中為hadoop使用者建立一個使用者目錄,命令如下:

hadoop@hadoop-master:~$ hdfs dfs -mkdir -p /user/hadoop

該命令中表示在HDFS中建立一個“/user/hadoop”目錄,“–mkdir”是建立目錄的操作,“-p”表示如果是多級目錄,則父目錄和子目錄一起建立,這裡“/user/hadoop”就是一個多級目錄,因此必須使用引數“-p”,否則會出錯。
“/user/hadoop”目錄就成為hadoop使用者對應的使用者目錄,可以使用如下命令顯示HDFS中與當前使用者hadoop對應的使用者目錄下的內容:

hadoop@hadoop-master:~$ hdfs dfs -ls .

該命令中,“-ls”表示列出HDFS某個目錄下的所有內容,“.”表示HDFS中的當前使用者目錄,也就是“/user/hadoop”目錄,因此,上面的命令和下面的命令是等價的:

hadoop@hadoop-master:~$ hdfs dfs -ls /user/hadoop

如果要列出HDFS上的所有目錄,可以使用如下命令:

hadoop@hadoop-master:~$ hdfs dfs -ls

下面,可以使用如下命令建立一個input目錄:

hadoop@hadoop-master:~$ hdfs dfs -mkdir input

在建立個input目錄時,採用了相對路徑形式,實際上,這個input目錄建立成功以後,它在HDFS中的完整路徑是“/user/hadoop/input”。如果要在HDFS的根目錄下建立一個名稱為input的目錄,則需要使用如下命令:

hadoop@hadoop-master:~$ hdfs dfs -mkdir /input

可以使用rm命令刪除一個目錄,比如,可以使用如下命令刪除剛才在HDFS中建立的“/input”目錄(不是“/user/hadoop/input”目錄):

hadoop@hadoop-master:~$ hdfs dfs -rm -r /input

上面命令中,“-r”引數表示如果刪除“/input”目錄及其子目錄下的所有內容,如果要刪除的一個目錄包含了子目錄,則必須使用“-r”引數,否則會執行失敗。

1.2 檔案操作

在實際應用中,經常需要從本地檔案系統向HDFS中上傳檔案,或者把HDFS中的檔案下載到本地檔案系統中。

首先,使用vim編輯器,在本地Linux檔案系統的“/home/hadoop/”目錄下建立一個檔案myLocalFile.txt,裡面可以隨意輸入一些單詞,比如,輸入如下三行:

hadoop@hadoop-master:~$ vim myLocalFile.txt
hadoop@hadoop-master:~$ cat myLocalFile.txt
Hadoop
Spark
XMU DBLAB

然後,可以使用如下命令把本地檔案系統的“/home/hadoop/myLocalFile.txt”上傳到HDFS中的當前使用者目錄的input目錄下,也就是上傳到HDFS的“/user/hadoop/input/”目錄下:

hadoop@hadoop-master:~$ hdfs dfs -put /home/hadoop/myLocalFile.txt input

可以使用ls命令檢視一下檔案是否成功上傳到HDFS中,具體如下:

hadoop@hadoop-master:~$ hdfs dfs -ls input/

該命令執行後會顯示類似如下的資訊:

Found 1 items
-rw-r--r--   1 hadoop supergroup         23 2022-04-18 10:09 input/myLocalFile.txt

下面使用如下命令檢視HDFS中的myLocalFile.txt這個檔案的內容:

hadoop@hadoop-master:~$ hdfs dfs -cat input/myLocalFile.txt
Hadoop
Spark
XMU DBLAB

下面把HDFS中的myLocalFile.txt檔案下載到本地檔案系統中的“/home/hadoop/下載/”這個目錄下,命令如下:

hadoop@hadoop-master:~$ hdfs dfs -get input/myLocalFile.txt /home/hadoop/

可以使用如下命令,到本地檔案系統檢視下載下來的檔案myLocalFile.txt:

hadoop@hadoop-master:~$ ls /home/hadoop/
myLocalFile.txt

最後,瞭解一下如何把檔案從HDFS中的一個目錄拷貝到HDFS中的另外一個目錄。比如,如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”檔案,拷貝到HDFS的另外一個目錄“/input”中(注意,這個input目錄位於HDFS根目錄下),可以使用如下命令:

hadoop@hadoop-master:~$ hdfs dfs -cp input/myLocalFile.txt /input

hadoop@hadoop-master:~$ hdfs dfs -ls /input
Found 1 items
-rw-r--r--   1 hadoop supergroup         23 2022-04-18 10:31 /input/myLocalFile.txt

2、利用Web介面管理HDFS

開啟Linux自帶的Firefox瀏覽器,點選此連結HDFS的Web介面,即可看到HDFS的web管理介面。WEB介面的訪問地址是http://localhost:9870。

3、利用Java API與HDFS進行互動

Hadoop不同的檔案系統之間通過呼叫Java API進行互動,上面介紹的Shell命令,本質上就是Java API的應用。下面提供了Hadoop官方的Hadoop API文件,想要深入學習Hadoop,可以訪問如下網站,檢視各個API的功能。

Hadoop API文件

利用Java API進行互動,需要利用軟體Eclipse編寫Java程式。

3.1 在Ubuntu中安裝Eclipse

Eclipse是常用的程式開發工具,本教程很多程式程式碼都是使用Eclipse開發除錯,因此,需要在Linux系統中安裝Eclipse。可以到Eclipse官網(https://www.eclipse.org/downloads/)下載安裝包。

下面執行如下命令對檔案進行解壓縮:

hadoop@hadoop-master:~$ sudo tar -xf eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local/

設定環境軟連線

hadoop@hadoop-master:~$ sudo mkdir -p /usr/local/eclipse/jre/bin/
hadoop@hadoop-master:~$ sudo ln -s /usr/lib/jvm/jdk1.8.0_162/bin/java /usr/local/eclipse/jre/bin/

然後,執行如下命令啟動Eclipse:

hadoop@hadoop-master:~$ cd /usr/local/eclipse/
hadoop@hadoop-master:/usr/local/eclipse$ ./eclipse

這時,就可以看到Eclipse的啟動介面了。

3.2 使用Eclipse開發除錯HDFS Java程式

Hadoop採用Java語言開發的,提供了Java API與HDFS進行互動。上面介紹的Shell命令,在執行時實際上會被系統轉換成Java API呼叫。Hadoop官方網站提供了完整的Hadoop API文件,想要深入學習Hadoop程式設計,可以訪問Hadoop官網檢視各個API的功能和用法。本教程只介紹基礎的HDFS程式設計。

為了提高程式編寫和除錯效率,本教程採用Eclipse工具編寫Java程式。

現在要執行的任務是:假設在目錄“hdfs://localhost:9000/user/hadoop”下面有幾個檔案,分別是file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,這裡需要從該目錄中過濾出所有後綴名不為“.abc”的檔案,對過濾之後的檔案進行讀取,並將這些檔案的內容合併到檔案“hdfs://localhost:9000/user/hadoop/merge.txt”中。

3.2.1 在Eclipse中建立專案

啟動Eclipse。當Eclipse啟動以後,會彈出如下圖所示介面,提示設定工作空間(workspace)。

可以直接採用預設的設定/home/hadoop/workspace,點選launch按鈕。可以看出,由於當前是採用hadoop使用者登入了Linux系統,因此,預設的工作空間目錄位於hadoop使用者目錄/home/hadoop下。

Eclipse啟動以後,會呈現如下圖所示的介面。

選擇“File–>New–>Java Project”選單,開始建立一個Java工程,會彈出如下圖所示介面。

Project name後面輸入工程名稱HDFSExample,選中Use default location,讓這個Java工程的所有檔案都儲存到/home/hadoop/workspace/HDFSExample目錄下。在“JRE”這個選項卡中,可以選擇當前的Linux系統中已經安裝好的JDK,比如jdk1.8.0_162。然後,點選介面底部的Next>按鈕,進入下一步的設定。

3.2.2 為專案新增需要用到的JAR包

進入下一步的設定以後,會彈出如下圖所示介面。

需要在這個介面中載入該Java工程所需要用到的JAR包,這些JAR包中包含了可以訪問HDFS的Java API。這些JAR包都位於Linux系統的Hadoop安裝目錄下,對於本教程而言,就是在/usr/local/hadoop/share/hadoop目錄下。點選介面中的“Libraries”選項卡,然後,點選介面右側的Add External JARs…按鈕,會彈出如下圖所示介面。

在該介面中,上面的一排目錄按鈕(即usrlocalhadoopsharehadoopcommon),當點選某個目錄按鈕時,就會在下面列出該目錄的內容。
為了編寫一個能夠與HDFS互動的Java應用程式,一般需要向Java工程中新增以下JAR包:

  • /usr/local/hadoop/share/hadoop/common目錄下的所有JAR包,包括hadoop-common-3.1.3.jarhadoop-common-3.1.3-tests.jarhaoop-nfs-3.1.3.jarhaoop-kms-3.1.3.jar,注意,不包括目錄jdifflibsourceswebapps
  • /usr/local/hadoop/share/hadoop/common/lib目錄下的所有JAR包;
  • /usr/local/hadoop/share/hadoop/hdfs目錄下的所有JAR包,注意,不包括目錄jdifflibsourceswebapps
  • /usr/local/hadoop/share/hadoop/hdfs/lib目錄下的所有JAR包。
    比如,如果要把/usr/local/hadoop/share/hadoop/common目錄下的hadoop-common-3.1.3.jarhadoop-common-3.1.3-tests.jarhaoop-nfs-3.1.3.jarhaoop-kms-3.1.3.jar新增到當前的Java工程中,可以在介面中點選目錄按鈕,進入到common目錄,然後,介面會顯示出common目錄下的所有內容(如下圖所示)。

請在介面中用滑鼠點選選中hadoop-common-3.1.3.jarhadoop-common-3.1.3-tests.jarhaoop-nfs-3.1.3.jarhaoop-kms-3.1.3.jar(不要選中目錄jdiff、lib、sources和webapps),然後點選介面右下角的“確定”按鈕,就可以把這兩個JAR包增加到當前Java工程中,出現的介面如下圖所示。

從這個介面中可以看出,hadoop-common-3.1.3.jarhadoop-common-3.1.3-tests.jarhaoop-nfs-3.1.3.jarhaoop-kms-3.1.3.jar已經被新增到當前Java工程中。然後,按照類似的操作方法,可以再次點選Add External JARs…按鈕,把剩餘的其他JAR包都新增進來。需要注意的是,當需要選中某個目錄下的所有JAR包時,可以使用Ctrl+A組合鍵進行全選操作。全部新增完畢以後,就可以點選介面右下角的Finish按鈕,完成Java工程HDFSExample的建立。

3.2.3 編寫Java應用程式

下面編寫一個Java應用程式。

請在Eclipse工作介面左側的Package Explorer面板中(如下圖所示),找到剛才建立好的工程名稱HDFSExample,然後在該工程名稱上點選滑鼠右鍵,在彈出的選單中選擇New–>Class選單。

選擇New–>Class選單以後會出現如下圖所示介面。

在該介面中,只需要在Name後面輸入新建的Java類檔案的名稱,這裡採用名稱MergeFile,其他都可以採用預設設定,然後,點選介面右下角Finish按鈕,出現如下圖所示介面。

可以看出,Eclipse自動建立了一個名為“MergeFile.java”的原始碼檔案,請在該檔案中輸入以下程式碼:

import java.io.IOException;
import java.io.PrintStream;
import java.net.URI;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
 
/**
 * 過濾掉檔名滿足特定條件的檔案 
 */
class MyPathFilter implements PathFilter {
     String reg = null; 
     MyPathFilter(String reg) {
          this.reg = reg;
     }
     public boolean accept(Path path) {
        if (!(path.toString().matches(reg)))
            return true;
        return false;
    }
}
/***
 * 利用FSDataOutputStream和FSDataInputStream合併HDFS中的檔案
 */
public class MergeFile {
    Path inputPath = null; //待合併的檔案所在的目錄的路徑
    Path outputPath = null; //輸出檔案的路徑
    public MergeFile(String input, String output) {
        this.inputPath = new Path(input);
        this.outputPath = new Path(output);
    }
    public void doMerge() throws IOException {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","hdfs://localhost:9000");
          conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
        FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);
        FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);
                //下面過濾掉輸入目錄中字尾為.abc的檔案
        FileStatus[] sourceStatus = fsSource.listStatus(inputPath,
                new MyPathFilter(".*\\.abc")); 
        FSDataOutputStream fsdos = fsDst.create(outputPath);
        PrintStream ps = new PrintStream(System.out);
        //下面分別讀取過濾之後的每個檔案的內容,並輸出到同一個檔案中
        for (FileStatus sta : sourceStatus) {
            //下面列印字尾不為.abc的檔案的路徑、檔案大小
            System.out.print("路徑:" + sta.getPath() + "    檔案大小:" + sta.getLen()
                    + "   許可權:" + sta.getPermission() + "   內容:");
            FSDataInputStream fsdis = fsSource.open(sta.getPath());
            byte[] data = new byte[1024];
            int read = -1;
 
            while ((read = fsdis.read(data)) > 0) {
                ps.write(data, 0, read);
                fsdos.write(data, 0, read);
            }
            fsdis.close();          
        }
        ps.close();
        fsdos.close();
    }
    public static void main(String[] args) throws IOException {
        MergeFile merge = new MergeFile(
                "hdfs://localhost:9000/user/hadoop/",
                "hdfs://localhost:9000/user/hadoop/merge.txt");
        merge.doMerge();
    }
}

3.2.4 編譯執行程式

在開始編譯執行程式之前,請一定確保Hadoop已經啟動執行,如果還沒有啟動,需要開啟一個Linux終端,輸入以下命令啟動Hadoop:

cd /usr/local/hadoop
./sbin/start-dfs.sh

然後,要確保HDFS的“/user/hadoop”目錄下已經存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,每個檔案裡面有內容。這裡,假設檔案內容如下:

file1.txt的內容是: this is file1.txt
file2.txt的內容是: this is file2.txt
file3.txt的內容是: this is file3.txt
file4.abc的內容是: this is file4.abc
file5.abc的內容是: this is file5.abc

現在就可以編譯執行上面編寫的程式碼。可以直接點選Eclipse工作介面上部的執行程式的快捷按鈕,當把滑鼠移動到該按鈕上時,在彈出的選單中選擇Run As,繼續在彈出來的選單中選擇Java Application,如下圖所示。

然後,會彈出如下圖所示介面。

在該介面中,點選介面右下角的OK按鈕,開始執行程式。程式執行結束後,會在底部的Console面板中顯示執行結果資訊(如下圖所示)。同時,Console面板中還會顯示一些類似log4j:WARN…的警告資訊,可以不用理會。

如果程式執行成功,這時,可以到HDFS中檢視生成的merge.txt檔案,比如,可以在Linux終端中執行如下命令:

hadoop@hadoop-master:~$ hdfs dfs -ls .
hadoop@hadoop-master:~$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt

3.2.5 應用程式的部署

下面介紹如何把Java應用程式生成JAR包,部署到Hadoop平臺上執行。首先,在Hadoop安裝目錄下新建一個名稱為myapp的目錄,用來存放我們自己編寫的Hadoop應用程式,可以在Linux的終端中執行如下命令:

hadoop@hadoop-master:~$ cd /usr/local/hadoop
hadoop@hadoop-master:/usr/local/hadoop$ sudo mkdir myapp

然後,請在Eclipse工作介面左側的Package Explorer面板中,在工程名稱HDFSExample上點選滑鼠右鍵,在彈出的選單中選擇Export,如下圖所示。

然後,會彈出如下圖所示介面。

在該介面中,選擇Runnable JAR file,然後,點選Next>按鈕,彈出如下圖所示介面。

在該介面中,Launch configuration用於設定生成的JAR包被部署啟動時執行的主類,需要在下拉列表中選擇剛才配置的類MergeFile-HDFSExample。在Export destination中需要設定JAR包要輸出儲存到哪個目錄,比如,這裡設定為/usr/local/hadoop/myapp/HDFSExample.jar。在Library handling下面選擇Extract required libraries into generated JAR。然後,點選Finish按鈕,會出現如下圖所示介面。

可以忽略該介面的資訊,直接點選介面右下角的OK按鈕,啟動打包過程。打包過程結束後,會出現一個警告資訊介面,如下圖所示。

可以忽略該介面的資訊,直接點選介面右下角的OK按鈕。至此,已經順利把HDFSExample工程打包生成了HDFSExample.jar。可以到Linux系統中檢視一下生成的HDFSExample.jar檔案,可以在Linux的終端中執行如下命令:

hadoop@hadoop-master:/usr/local/hadoop$ ll /usr/local/hadoop/myapp/
總用量 56332
drwxr-xr-x  2 root root     4096  4月 18 16:13 ./
drwxr-xr-x 12 root root     4096  4月 18 16:03 ../
-rw-r--r--  1 root root 57673000  4月 18 16:13 HDFSExample.jar

可以看到,/usr/local/hadoop/myapp目錄下已經存在一個HDFSExample.jar檔案。

由於之前已經執行過一次程式,已經生成了merge.txt,因此,需要首先執行如下命令刪除該檔案:

hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -rm -r merge.txt

現在,就可以在Linux系統中,使用hadoop jar命令執行程式,命令如下:

hadoop@hadoop-master:/usr/local/hadoop$ hadoop jar ./myapp/HDFSExample.jar

上面程式執行結束以後,可以到HDFS中檢視生成的merge.txt檔案,比如,可以在Linux終端中執行如下命令:

hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -ls .
Found 8 items
......
merge.txt
drwxrwxrwx   - hadoop supergroup          0 2022-04-14 19:38 
......

hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt

4、附錄:自己練習用的程式碼檔案

下面給出幾個程式碼檔案,供讀者自己練習。

4.1 寫入檔案

        import org.apache.hadoop.conf.Configuration;  
        import org.apache.hadoop.fs.FileSystem;
        import org.apache.hadoop.fs.FSDataOutputStream;
        import org.apache.hadoop.fs.Path;
 
        public class Chapter3 {    
                public static void main(String[] args) { 
                        try {
                                Configuration conf = new Configuration();  
                                conf.set("fs.defaultFS","hdfs://localhost:9000");
                                conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
                                FileSystem fs = FileSystem.get(conf);
                                byte[] buff = "Hello world".getBytes(); // 要寫入的內容
                                String filename = "test"; //要寫入的檔名
                                FSDataOutputStream os = fs.create(new Path(filename));
                                os.write(buff,0,buff.length);
                                System.out.println("Create:"+ filename);
                                os.close();
                                fs.close();
                        } catch (Exception e) {  
                                e.printStackTrace();  
                        }  
                }  
        }

4.2 判斷檔案是否存在

        import org.apache.hadoop.conf.Configuration;
        import org.apache.hadoop.fs.FileSystem;
        import org.apache.hadoop.fs.Path;
 
        public class Chapter3 {
                public static void main(String[] args) {
                            try {
                                    String filename = "test";
 
                                    Configuration conf = new Configuration();
                                    conf.set("fs.defaultFS","hdfs://localhost:9000");
                                    conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
                                    FileSystem fs = FileSystem.get(conf);
                                    if(fs.exists(new Path(filename))){
                                            System.out.println("檔案存在");
                                    }else{
                                            System.out.println("檔案不存在");
                                    }
                                    fs.close();
                        } catch (Exception e) {
                                e.printStackTrace();
                        }
                }
        } 

4.3 讀取檔案

        import java.io.BufferedReader;
        import java.io.InputStreamReader;
 
        import org.apache.hadoop.conf.Configuration;
        import org.apache.hadoop.fs.FileSystem;
        import org.apache.hadoop.fs.Path;
        import org.apache.hadoop.fs.FSDataInputStream;
 
        public class Chapter3 {
                public static void main(String[] args) {
                        try {
                                Configuration conf = new Configuration();
                                conf.set("fs.defaultFS","hdfs://localhost:9000");
                                conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
                                FileSystem fs = FileSystem.get(conf);
                                Path file = new Path("test"); 
                                FSDataInputStream getIt = fs.open(file);
                                BufferedReader d = new BufferedReader(new InputStreamReader(getIt));
                                String content = d.readLine(); //讀取檔案一行
                                System.out.println(content);
                                d.close(); //關閉檔案
                                fs.close(); //關閉hdfs
                        } catch (Exception e) {
                                e.printStackTrace();
                        }
                }
        }

本文參考:http://dblab.xmu.edu.cn/blog/2460-2/