1. 程式人生 > >大資料(hadoop-HDFS的本地開發環境的配置與常見的HDFS的JAVA API)

大資料(hadoop-HDFS的本地開發環境的配置與常見的HDFS的JAVA API)

HDFS的本地開發環境搭建

1:所需工具

1)hadoop2.7.3安裝包
2)hadoop-eclipse-plugin外掛
https://github.com/winghc/hadoop2x-eclipse-plugin

2:搭建過程

1:解壓hadoop2.7.3檔案
2:下載hadoop-eclipse-plugin外掛
3:解壓hadoop2.7.3
4:設定hadoop的環境變數
    新增系統變數HADOOP_HOME
    新增hadoop的bin目錄到PATH中
5:新增hadoop.dll和winutils.exe 到hadoop的解壓目錄中的bin目錄中
    (hadoop.dll和winutils.ext在hadoop-eclipse-plugin目錄裡面)

6:將hadoop-eclipse的外掛放入eclipse的plugins目錄中
7:在eclipse中配置hadoop的安裝目錄
8:配置eclipse的DFS location


HDFS Java API介紹

configuration類:
    該類的物件封裝了配置資訊,這些配置資訊來自core-*.xml
FileSystem類:
    檔案系統類,可使用該類的方法對檔案/目錄進行操作。一般通過FileSystem的靜態方法get獲得一個檔案系統物件
FSDataInputStream和FSDataOutputStream類:
    HDFS中的輸入輸出流。分別通過FileSystem的Open方法和create方法獲得

以上類均來自java包:org.apache.hadoop.fs

示例程式碼,看工程裡的JAVA程式碼

Configution config=new Configution();
FileSystem hdfs = FileSystem.get(config);
Path srcPath = new Path(srcFile);
Path dstPath = new Path(dstFile);
hdfs.copyFromLocalFile(srcPath, dstPath);