1. 程式人生 > >很詳細的在linux下使用Eclipse 開發hadoop配置

很詳細的在linux下使用Eclipse 開發hadoop配置

在前面一篇文章中介紹瞭如果在完全分散式的環境下搭建Hadoop0.20.2,現在就再利用這個環境完成開發。

      首先用hadoop這個使用者登入linux系統(hadoop使用者在前面一篇文章中建立的),然後下載eclipse的tar.gz包到/home/hadoop/這個目錄下,直接解壓縮,於是就會存在/home/hadoop/eclipse這個目錄。在開發之前需要將hadoop0.20.2目錄下面的一個jar複製到eclipse下面去。(注:在上一篇文章中我將hadoop0.20.2資料夾修改成了hadoop,哈哈,所以下面的目錄不要暈哦!)

     第一步:外掛複製

          首先尋找到hadoop下面的eclipse-plugin的jar,位置在/home/hadoop/hadoop/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar

     將其賦值到剛才解壓的eclipse目錄下,目錄在/home/hadoop/eclipse/plugins/,開啟這個目錄後,貼上即可。

     jar包複製好後即可雙擊eclipse目錄下的eclipse圖示,開啟eclipse進行開發。

     第二步:準備開發環境

 開啟eclipse後,首先windows->preferences,開啟如下圖介面,按照下圖紅框提示區域進行配置,其中hadoop的安裝位置即hadoop下載後解壓的位置。  

緊接著,同樣還是windows->show view->other,在開啟的頁面中輸入map,以便找到Map/Reduce Locations,如下圖

點選OK後,會在eclipse開發工具的下方會顯示Map/Reduce Locations 在這個區域裡面點選滑鼠右鍵,可以建立一個new Hadoop Location,方便我們可以管理hdfs目錄。

點選"New Hadoop Location"後會彈出一個配置頁面,其中引數配置如下圖中的標識,點選Finish後,即可在開發環境的左邊出現一個hadoop目錄導航樹。

hadoop中hdfs目錄中的檔案可以在user資料夾下面檢視到。此時,基本的環境配置都已經完成,下面即可進行正式的開發了。

第三步:java程式碼編寫

     下面我們簡單的闡述下,要完成的功能,在test_2.txt中我們記錄了一些手機號在不同時刻撥打的電話,有些是打給10086,有些是打給120,還有些其他的號碼,現在我們需要完成的工作就是統計,比如10086被哪些號碼打過,還有就是120被哪些號碼打過,所以,我們的期望資料和目標資料分別如下圖:

   

     首先需要新建一個專案:File->New->Project... 在彈出的窗體中選中Map/Reduce Project,點選Next,輸入Project Name 這裡是MyHadoop002,然後點選Finish,此時在開發環境的左邊可以看到新建的專案,展開新建的專案MyHadoop002,選擇src,右鍵,新建一個class,在彈出的頁面中輸入Name(我在這裡輸入是Test_2)後點擊Finish(Package選擇性填寫)。

     Test_2.java裡面的程式碼如下:

     

第四步:執行程式

     程式碼編寫結束,最後一步既是執行,點選Run->Run Configurations ,彈出的頁面中,左邊是導航,右邊是引數配置介面,首先點選座標導航中的Java Application,點選"新增"圖示,會在Java Application下面生成與Class Name同名的application,這裡是Test_2.如下圖.

   

      這時候,需要配置Java程式碼中在main函式中用到的兩個引數,即文件的讀取路徑,以及reduce後文檔的輸出路徑,在main函式中我們有用到args[0]、args[1],所以,這裡我們需要輸入hdfs路徑。

   

    輸入完成後點選“Run”,如果沒有問題的話,此時即可正常運行了,讓我們來看下執行的結果

    

    到此,一個簡單的Linux下利用Eclipse開發hadoop的程式即完成了。希望都可以從中學到知識..........