1. 程式人生 > >hadoop streaming 使用總結

hadoop streaming 使用總結

  1. cmd "$HADOOP_HOME jar $STREAMING    ##HADOOP_HOME、STREAMING 都是在配置hadoop客戶端時的地址,本地地址,streaming我目前沒配置,不知道為什麼可以跑成功
  2. -cacheArchive ${PYTHON_URI}  ## 用於把 叢集中的PYTHON_URI 檔案拷貝到任務當前工作目錄並自動把檔案解壓縮,常用方式:"/app/share/python2.7.9.tar.gz#python27"後面 # 後的python27是當前工作目錄下的符號連結,它指向python2.7.9.tar.gz解壓後的目錄
  3. -mapper '${PYTHON_IN_HADOOP} ${SCRIPT} map'   # PYTHON_IN_HADOOP表示{PYTHON_URI}解壓之後的python位置,是個相對路徑,一般是:“python27/bin/python”,類似於sh命令中的 python wordcount.py,後面的map是輸入引數
  4. -input \ output 計算輸入叢集檔案、輸出結果到叢集