HDFS程式設計實踐
HDFS程式設計實踐
1、利用Shell命令與HDFS進行互動
Hadoop支援很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以檢視HDFS檔案系統的目錄結構、上傳和下載資料、建立檔案等。
注意,實際上有三種shell命令方式。
- hadoop fs適用於任何不同的檔案系統,比如本地檔案系統和HDFS檔案系統
- hadoop dfs只能適用於HDFS檔案系統
- hdfs dfs跟hadoop dfs的命令作用一樣,也只能適用於HDFS檔案系統
我們可以在終端輸入如下命令,檢視fs總共支援了哪些命令
hadoop@hadoop-master:~$ hadoop fs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] [-l] [-d] [-t <thread count>] <localsrc> ... <dst>] [-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] [-e] <path> ...] [-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>] [-createSnapshot <snapshotDir> [<snapshotName>]] [-deleteSnapshot <snapshotDir> <snapshotName>] [-df [-h] [<path> ...]] [-du [-s] [-h] [-v] [-x] <path> ...] [-expunge] [-find <path> ... <expression> ...] [-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>] [-getfacl [-R] <path>] [-getfattr [-R] {-n name | -d} [-e en] <path>] [-getmerge [-nl] [-skip-empty-file] <src> <localdst>] [-head <file>] [-help [cmd ...]] [-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [-e] [<path> ...]] [-mkdir [-p] <path> ...] [-moveFromLocal <localsrc> ... <dst>] [-moveToLocal <src> <localdst>] [-mv <src> ... <dst>] [-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>] [-renameSnapshot <snapshotDir> <oldName> <newName>] [-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...] [-rmdir [--ignore-fail-on-non-empty] <dir> ...] [-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]] [-setfattr {-n name [-v value] | -x name} <path>] [-setrep [-R] [-w] <rep> <path> ...] [-stat [format] <path> ...] [-tail [-f] [-s <sleep interval>] <file>] [-test -[defsz] <path>] [-text [-ignoreCrc] <src> ...] [-touch [-a] [-m] [-t TIMESTAMP ] [-c] <path> ...] [-touchz <path> ...] [-truncate [-w] <length> <path> ...] [-usage [cmd ...]]
在終端輸入如下命令,可以檢視具體某個命令的作用
例如:我們檢視put命令如何使用,可以輸入如下命令
hadoop@hadoop-master:~$ hadoop fs -help put -put [-f] [-p] [-l] [-d] <localsrc> ... <dst> : Copy files from the local file system into fs. Copying fails if the file already exists, unless the -f flag is given. Flags: -p Preserves access and modification times, ownership and the mode. -f Overwrites the destination if it already exists. -l Allow DataNode to lazily persist the file to disk. Forces replication factor of 1. This flag will result in reduced durability. Use with care. -d Skip creation of temporary file(<dst>._COPYING_).
1.1 目錄操作
需要注意的是,Hadoop系統安裝好以後,第一次使用HDFS時,需要首先在HDFS中建立使用者目錄。本教程全部採用hadoop使用者登入Linux系統,因此,需要在HDFS中為hadoop使用者建立一個使用者目錄,命令如下:
hadoop@hadoop-master:~$ hdfs dfs -mkdir -p /user/hadoop
該命令中表示在HDFS中建立一個“/user/hadoop”目錄,“–mkdir”是建立目錄的操作,“-p”表示如果是多級目錄,則父目錄和子目錄一起建立,這裡“/user/hadoop”就是一個多級目錄,因此必須使用引數“-p”,否則會出錯。
“/user/hadoop”目錄就成為hadoop使用者對應的使用者目錄,可以使用如下命令顯示HDFS中與當前使用者hadoop對應的使用者目錄下的內容:
hadoop@hadoop-master:~$ hdfs dfs -ls .
該命令中,“-ls”表示列出HDFS某個目錄下的所有內容,“.”表示HDFS中的當前使用者目錄,也就是“/user/hadoop”目錄,因此,上面的命令和下面的命令是等價的:
hadoop@hadoop-master:~$ hdfs dfs -ls /user/hadoop
如果要列出HDFS上的所有目錄,可以使用如下命令:
hadoop@hadoop-master:~$ hdfs dfs -ls
下面,可以使用如下命令建立一個input目錄:
hadoop@hadoop-master:~$ hdfs dfs -mkdir input
在建立個input目錄時,採用了相對路徑形式,實際上,這個input目錄建立成功以後,它在HDFS中的完整路徑是“/user/hadoop/input”。如果要在HDFS的根目錄下建立一個名稱為input的目錄,則需要使用如下命令:
hadoop@hadoop-master:~$ hdfs dfs -mkdir /input
可以使用rm命令刪除一個目錄,比如,可以使用如下命令刪除剛才在HDFS中建立的“/input”目錄(不是“/user/hadoop/input”目錄):
hadoop@hadoop-master:~$ hdfs dfs -rm -r /input
上面命令中,“-r”引數表示如果刪除“/input”目錄及其子目錄下的所有內容,如果要刪除的一個目錄包含了子目錄,則必須使用“-r”引數,否則會執行失敗。
1.2 檔案操作
在實際應用中,經常需要從本地檔案系統向HDFS中上傳檔案,或者把HDFS中的檔案下載到本地檔案系統中。
首先,使用vim編輯器,在本地Linux檔案系統的“/home/hadoop/”目錄下建立一個檔案myLocalFile.txt,裡面可以隨意輸入一些單詞,比如,輸入如下三行:
hadoop@hadoop-master:~$ vim myLocalFile.txt
hadoop@hadoop-master:~$ cat myLocalFile.txt
Hadoop
Spark
XMU DBLAB
然後,可以使用如下命令把本地檔案系統的“/home/hadoop/myLocalFile.txt”上傳到HDFS中的當前使用者目錄的input目錄下,也就是上傳到HDFS的“/user/hadoop/input/”目錄下:
hadoop@hadoop-master:~$ hdfs dfs -put /home/hadoop/myLocalFile.txt input
可以使用ls命令檢視一下檔案是否成功上傳到HDFS中,具體如下:
hadoop@hadoop-master:~$ hdfs dfs -ls input/
該命令執行後會顯示類似如下的資訊:
Found 1 items
-rw-r--r-- 1 hadoop supergroup 23 2022-04-18 10:09 input/myLocalFile.txt
下面使用如下命令檢視HDFS中的myLocalFile.txt這個檔案的內容:
hadoop@hadoop-master:~$ hdfs dfs -cat input/myLocalFile.txt
Hadoop
Spark
XMU DBLAB
下面把HDFS中的myLocalFile.txt檔案下載到本地檔案系統中的“/home/hadoop/下載/”這個目錄下,命令如下:
hadoop@hadoop-master:~$ hdfs dfs -get input/myLocalFile.txt /home/hadoop/
可以使用如下命令,到本地檔案系統檢視下載下來的檔案myLocalFile.txt:
hadoop@hadoop-master:~$ ls /home/hadoop/
myLocalFile.txt
最後,瞭解一下如何把檔案從HDFS中的一個目錄拷貝到HDFS中的另外一個目錄。比如,如果要把HDFS的“/user/hadoop/input/myLocalFile.txt”檔案,拷貝到HDFS的另外一個目錄“/input”中(注意,這個input目錄位於HDFS根目錄下),可以使用如下命令:
hadoop@hadoop-master:~$ hdfs dfs -cp input/myLocalFile.txt /input
hadoop@hadoop-master:~$ hdfs dfs -ls /input
Found 1 items
-rw-r--r-- 1 hadoop supergroup 23 2022-04-18 10:31 /input/myLocalFile.txt
2、利用Web介面管理HDFS
開啟Linux自帶的Firefox瀏覽器,點選此連結HDFS的Web介面,即可看到HDFS的web管理介面。WEB介面的訪問地址是http://localhost:9870。
3、利用Java API與HDFS進行互動
Hadoop不同的檔案系統之間通過呼叫Java API進行互動,上面介紹的Shell命令,本質上就是Java API的應用。下面提供了Hadoop官方的Hadoop API文件,想要深入學習Hadoop,可以訪問如下網站,檢視各個API的功能。
利用Java API進行互動,需要利用軟體Eclipse編寫Java程式。
3.1 在Ubuntu中安裝Eclipse
Eclipse是常用的程式開發工具,本教程很多程式程式碼都是使用Eclipse開發除錯,因此,需要在Linux系統中安裝Eclipse。可以到Eclipse官網(https://www.eclipse.org/downloads/)下載安裝包。
下面執行如下命令對檔案進行解壓縮:
hadoop@hadoop-master:~$ sudo tar -xf eclipse-4.7.0-linux.gtk.x86_64.tar.gz -C /usr/local/
設定環境軟連線
hadoop@hadoop-master:~$ sudo mkdir -p /usr/local/eclipse/jre/bin/
hadoop@hadoop-master:~$ sudo ln -s /usr/lib/jvm/jdk1.8.0_162/bin/java /usr/local/eclipse/jre/bin/
然後,執行如下命令啟動Eclipse:
hadoop@hadoop-master:~$ cd /usr/local/eclipse/
hadoop@hadoop-master:/usr/local/eclipse$ ./eclipse
這時,就可以看到Eclipse的啟動介面了。
3.2 使用Eclipse開發除錯HDFS Java程式
Hadoop採用Java語言開發的,提供了Java API與HDFS進行互動。上面介紹的Shell命令,在執行時實際上會被系統轉換成Java API呼叫。Hadoop官方網站提供了完整的Hadoop API文件,想要深入學習Hadoop程式設計,可以訪問Hadoop官網檢視各個API的功能和用法。本教程只介紹基礎的HDFS程式設計。
為了提高程式編寫和除錯效率,本教程採用Eclipse工具編寫Java程式。
現在要執行的任務是:假設在目錄“hdfs://localhost:9000/user/hadoop”下面有幾個檔案,分別是file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,這裡需要從該目錄中過濾出所有後綴名不為“.abc”的檔案,對過濾之後的檔案進行讀取,並將這些檔案的內容合併到檔案“hdfs://localhost:9000/user/hadoop/merge.txt”中。
3.2.1 在Eclipse中建立專案
啟動Eclipse。當Eclipse啟動以後,會彈出如下圖所示介面,提示設定工作空間(workspace)。
可以直接採用預設的設定/home/hadoop/workspace
,點選launch
按鈕。可以看出,由於當前是採用hadoop使用者登入了Linux系統,因此,預設的工作空間目錄位於hadoop使用者目錄/home/hadoop
下。
Eclipse啟動以後,會呈現如下圖所示的介面。
選擇“File–>New–>Java Project”選單,開始建立一個Java工程,會彈出如下圖所示介面。
在Project name
後面輸入工程名稱HDFSExample
,選中Use default location
,讓這個Java工程的所有檔案都儲存到/home/hadoop/workspace/HDFSExample
目錄下。在“JRE”這個選項卡中,可以選擇當前的Linux系統中已經安裝好的JDK,比如jdk1.8.0_162
。然後,點選介面底部的Next>
按鈕,進入下一步的設定。
3.2.2 為專案新增需要用到的JAR包
進入下一步的設定以後,會彈出如下圖所示介面。
需要在這個介面中載入該Java工程所需要用到的JAR包,這些JAR包中包含了可以訪問HDFS的Java API。這些JAR包都位於Linux系統的Hadoop安裝目錄下,對於本教程而言,就是在/usr/local/hadoop/share/hadoop
目錄下。點選介面中的“Libraries”選項卡,然後,點選介面右側的Add External JARs…
按鈕,會彈出如下圖所示介面。
在該介面中,上面的一排目錄按鈕(即usr
、local
、hadoop
、share
、hadoop
和common
),當點選某個目錄按鈕時,就會在下面列出該目錄的內容。
為了編寫一個能夠與HDFS互動的Java應用程式,一般需要向Java工程中新增以下JAR包:
/usr/local/hadoop/share/hadoop/common
目錄下的所有JAR包,包括hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
,注意,不包括目錄jdiff
、lib
、sources
和webapps
;/usr/local/hadoop/share/hadoop/common/lib
目錄下的所有JAR包;/usr/local/hadoop/share/hadoop/hdfs
目錄下的所有JAR包,注意,不包括目錄jdiff
、lib
、sources
和webapps
;/usr/local/hadoop/share/hadoop/hdfs/lib
目錄下的所有JAR包。
比如,如果要把/usr/local/hadoop/share/hadoop/common
目錄下的hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
新增到當前的Java工程中,可以在介面中點選目錄按鈕,進入到common目錄,然後,介面會顯示出common目錄下的所有內容(如下圖所示)。
請在介面中用滑鼠點選選中hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
(不要選中目錄jdiff、lib、sources和webapps),然後點選介面右下角的“確定”按鈕,就可以把這兩個JAR包增加到當前Java工程中,出現的介面如下圖所示。
從這個介面中可以看出,hadoop-common-3.1.3.jar
、hadoop-common-3.1.3-tests.jar
、haoop-nfs-3.1.3.jar
和haoop-kms-3.1.3.jar
已經被新增到當前Java工程中。然後,按照類似的操作方法,可以再次點選Add External JARs…
按鈕,把剩餘的其他JAR包都新增進來。需要注意的是,當需要選中某個目錄下的所有JAR包時,可以使用Ctrl+A
組合鍵進行全選操作。全部新增完畢以後,就可以點選介面右下角的Finish
按鈕,完成Java工程HDFSExample的建立。
3.2.3 編寫Java應用程式
下面編寫一個Java應用程式。
請在Eclipse工作介面左側的Package Explorer
面板中(如下圖所示),找到剛才建立好的工程名稱HDFSExample
,然後在該工程名稱上點選滑鼠右鍵,在彈出的選單中選擇New–>Class
選單。
選擇New–>Class
選單以後會出現如下圖所示介面。
在該介面中,只需要在Name
後面輸入新建的Java類檔案的名稱,這裡採用名稱MergeFile
,其他都可以採用預設設定,然後,點選介面右下角Finish
按鈕,出現如下圖所示介面。
可以看出,Eclipse自動建立了一個名為“MergeFile.java”的原始碼檔案,請在該檔案中輸入以下程式碼:
import java.io.IOException;
import java.io.PrintStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
/**
* 過濾掉檔名滿足特定條件的檔案
*/
class MyPathFilter implements PathFilter {
String reg = null;
MyPathFilter(String reg) {
this.reg = reg;
}
public boolean accept(Path path) {
if (!(path.toString().matches(reg)))
return true;
return false;
}
}
/***
* 利用FSDataOutputStream和FSDataInputStream合併HDFS中的檔案
*/
public class MergeFile {
Path inputPath = null; //待合併的檔案所在的目錄的路徑
Path outputPath = null; //輸出檔案的路徑
public MergeFile(String input, String output) {
this.inputPath = new Path(input);
this.outputPath = new Path(output);
}
public void doMerge() throws IOException {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fsSource = FileSystem.get(URI.create(inputPath.toString()), conf);
FileSystem fsDst = FileSystem.get(URI.create(outputPath.toString()), conf);
//下面過濾掉輸入目錄中字尾為.abc的檔案
FileStatus[] sourceStatus = fsSource.listStatus(inputPath,
new MyPathFilter(".*\\.abc"));
FSDataOutputStream fsdos = fsDst.create(outputPath);
PrintStream ps = new PrintStream(System.out);
//下面分別讀取過濾之後的每個檔案的內容,並輸出到同一個檔案中
for (FileStatus sta : sourceStatus) {
//下面列印字尾不為.abc的檔案的路徑、檔案大小
System.out.print("路徑:" + sta.getPath() + " 檔案大小:" + sta.getLen()
+ " 許可權:" + sta.getPermission() + " 內容:");
FSDataInputStream fsdis = fsSource.open(sta.getPath());
byte[] data = new byte[1024];
int read = -1;
while ((read = fsdis.read(data)) > 0) {
ps.write(data, 0, read);
fsdos.write(data, 0, read);
}
fsdis.close();
}
ps.close();
fsdos.close();
}
public static void main(String[] args) throws IOException {
MergeFile merge = new MergeFile(
"hdfs://localhost:9000/user/hadoop/",
"hdfs://localhost:9000/user/hadoop/merge.txt");
merge.doMerge();
}
}
3.2.4 編譯執行程式
在開始編譯執行程式之前,請一定確保Hadoop已經啟動執行,如果還沒有啟動,需要開啟一個Linux終端,輸入以下命令啟動Hadoop:
cd /usr/local/hadoop
./sbin/start-dfs.sh
然後,要確保HDFS的“/user/hadoop”目錄下已經存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc,每個檔案裡面有內容。這裡,假設檔案內容如下:
file1.txt的內容是: this is file1.txt
file2.txt的內容是: this is file2.txt
file3.txt的內容是: this is file3.txt
file4.abc的內容是: this is file4.abc
file5.abc的內容是: this is file5.abc
現在就可以編譯執行上面編寫的程式碼。可以直接點選Eclipse工作介面上部的執行程式的快捷按鈕,當把滑鼠移動到該按鈕上時,在彈出的選單中選擇Run As
,繼續在彈出來的選單中選擇Java Application
,如下圖所示。
然後,會彈出如下圖所示介面。
在該介面中,點選介面右下角的OK
按鈕,開始執行程式。程式執行結束後,會在底部的Console
面板中顯示執行結果資訊(如下圖所示)。同時,Console
面板中還會顯示一些類似log4j:WARN…
的警告資訊,可以不用理會。
如果程式執行成功,這時,可以到HDFS中檢視生成的merge.txt檔案,比如,可以在Linux終端中執行如下命令:
hadoop@hadoop-master:~$ hdfs dfs -ls .
hadoop@hadoop-master:~$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt
3.2.5 應用程式的部署
下面介紹如何把Java應用程式生成JAR包,部署到Hadoop平臺上執行。首先,在Hadoop安裝目錄下新建一個名稱為myapp的目錄,用來存放我們自己編寫的Hadoop應用程式,可以在Linux的終端中執行如下命令:
hadoop@hadoop-master:~$ cd /usr/local/hadoop
hadoop@hadoop-master:/usr/local/hadoop$ sudo mkdir myapp
然後,請在Eclipse工作介面左側的Package Explorer
面板中,在工程名稱HDFSExample
上點選滑鼠右鍵,在彈出的選單中選擇Export
,如下圖所示。
然後,會彈出如下圖所示介面。
在該介面中,選擇Runnable JAR file
,然後,點選Next>
按鈕,彈出如下圖所示介面。
在該介面中,Launch configuration
用於設定生成的JAR包被部署啟動時執行的主類,需要在下拉列表中選擇剛才配置的類MergeFile-HDFSExample
。在Export destination
中需要設定JAR包要輸出儲存到哪個目錄,比如,這裡設定為/usr/local/hadoop/myapp/HDFSExample.jar
。在Library handling
下面選擇Extract required libraries into generated JAR
。然後,點選Finish
按鈕,會出現如下圖所示介面。
可以忽略該介面的資訊,直接點選介面右下角的OK
按鈕,啟動打包過程。打包過程結束後,會出現一個警告資訊介面,如下圖所示。
可以忽略該介面的資訊,直接點選介面右下角的OK
按鈕。至此,已經順利把HDFSExample工程打包生成了HDFSExample.jar
。可以到Linux系統中檢視一下生成的HDFSExample.jar
檔案,可以在Linux的終端中執行如下命令:
hadoop@hadoop-master:/usr/local/hadoop$ ll /usr/local/hadoop/myapp/
總用量 56332
drwxr-xr-x 2 root root 4096 4月 18 16:13 ./
drwxr-xr-x 12 root root 4096 4月 18 16:03 ../
-rw-r--r-- 1 root root 57673000 4月 18 16:13 HDFSExample.jar
可以看到,/usr/local/hadoop/myapp
目錄下已經存在一個HDFSExample.jar
檔案。
由於之前已經執行過一次程式,已經生成了merge.txt,因此,需要首先執行如下命令刪除該檔案:
hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -rm -r merge.txt
現在,就可以在Linux系統中,使用hadoop jar命令執行程式,命令如下:
hadoop@hadoop-master:/usr/local/hadoop$ hadoop jar ./myapp/HDFSExample.jar
上面程式執行結束以後,可以到HDFS中檢視生成的merge.txt檔案,比如,可以在Linux終端中執行如下命令:
hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -ls .
Found 8 items
......
merge.txt
drwxrwxrwx - hadoop supergroup 0 2022-04-14 19:38
......
hadoop@hadoop-master:/usr/local/hadoop$ hdfs dfs -cat merge.txt
this is file1.txt
this is file2.txt
this is file3.txt
4、附錄:自己練習用的程式碼檔案
下面給出幾個程式碼檔案,供讀者自己練習。
4.1 寫入檔案
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.Path;
public class Chapter3 {
public static void main(String[] args) {
try {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
byte[] buff = "Hello world".getBytes(); // 要寫入的內容
String filename = "test"; //要寫入的檔名
FSDataOutputStream os = fs.create(new Path(filename));
os.write(buff,0,buff.length);
System.out.println("Create:"+ filename);
os.close();
fs.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
4.2 判斷檔案是否存在
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
public class Chapter3 {
public static void main(String[] args) {
try {
String filename = "test";
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
if(fs.exists(new Path(filename))){
System.out.println("檔案存在");
}else{
System.out.println("檔案不存在");
}
fs.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
4.3 讀取檔案
import java.io.BufferedReader;
import java.io.InputStreamReader;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.FSDataInputStream;
public class Chapter3 {
public static void main(String[] args) {
try {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
Path file = new Path("test");
FSDataInputStream getIt = fs.open(file);
BufferedReader d = new BufferedReader(new InputStreamReader(getIt));
String content = d.readLine(); //讀取檔案一行
System.out.println(content);
d.close(); //關閉檔案
fs.close(); //關閉hdfs
} catch (Exception e) {
e.printStackTrace();
}
}
}