1. 程式人生 > >hadoop streaming 引數設定

hadoop streaming 引數設定

Hadoop Streaming用法
Usage: $HADOOP_HOME/bin/hadoop jar \
$HADOOP_HOME/hadoop-streaming.jar [options]
options:
(1)-input:輸入檔案路徑
(2)-output:輸出檔案路徑
(3)-mapper:使用者自己寫的mapper程式,可以是可執行檔案或者指令碼
(4)-reducer:使用者自己寫的reducer程式,可以是可執行檔案或者指令碼
(5)-file:打包檔案到提交的作業中,可以是mapper或者reducer要用的輸入檔案,如配置檔案,字典等。
(6)-partitioner:使用者自定義的partitioner程式
(7)-combiner:使用者自定義的combiner程式(必須用java實現)
(8)-D
:作業的一些屬性(以前用的是-jonconf),具體有:
             1)mapred.map.tasks:map task數目
             2)mapred.reduce.tasks:reduce task數目
             3)stream.map.input.field.separator/stream.map.output.field.separator: map task輸入/輸出數
據的分隔符,預設均為\t。
             4)stream.num.map.output.key.fields:指定map task輸出記錄中key所佔的域數目
             5)stream.reduce.input.field.separator/stream.reduce.output.field.separator:reduce task輸入/輸出資料的分隔符,預設均為\t。