1. 程式人生 > >Hadoop DistributedCache使用案例

Hadoop DistributedCache使用案例

oop 公司 ado tail detail int ted http ace

背景

公司數據處理具有兩個計算框架,單機框架和MR框架。眼下我已經抽象出一套API interface, 供業務計算開發者使用。

並分別在兩個計算框架下實現了API的運行調度。應用開發者有時間須要通過上傳override的配置文件。來調整業務計算參數。單機框架易於實現。但在MR框架裏,須要解決override的配置文件的分發問題。

實現

1. 通過命令行傳入配置文件路徑;

2. MR job client端讀入本地配置文件,並增加DistributedCache。並把命令行參數不加改動,附加到MR child JVM啟動參數數組中。

3. MR child JVM啟動後檢查啟動參數, 發現有配置文件,且配置文件不存在。則將配置文件路徑替換為DistributedCache相應的本地路徑。

4. child JVM job讀入替換後的配置文件,並應用到mr job中。實現計算參數的改動。


參考

http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/


Hadoop DistributedCache使用案例