Hadoop DistributedCache使用案例

阿新 • • 發佈：2017-05-08

oop 公司 ado tail detail int ted http ace

背景

公司數據處理具有兩個計算框架，單機框架和MR框架。眼下我已經抽象出一套API interface, 供業務計算開發者使用。

並分別在兩個計算框架下實現了API的運行調度。應用開發者有時間須要通過上傳override的配置文件。來調整業務計算參數。單機框架易於實現。但在MR框架裏，須要解決override的配置文件的分發問題。

1. 通過命令行傳入配置文件路徑；

2. MR job client端讀入本地配置文件，並增加DistributedCache。並把命令行參數不加改動，附加到MR child JVM啟動參數數組中。

3. MR child JVM啟動後檢查啟動參數, 發現有配置文件，且配置文件不存在。則將配置文件路徑替換為DistributedCache相應的本地路徑。

4. child JVM job讀入替換後的配置文件，並應用到mr job中。實現計算參數的改動。

http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/

Hadoop DistributedCache使用案例

oop 公司 ado tail detail int ted http ace 背景公司數據處理具有兩個計算框架，單機框架和MR框架。眼下我已經抽象出一套API interface, 供業務計算開發者使用。並分別在兩個計算框架下實現了API的運行調度。應用開發者有時