1. 程式人生 > >Alluxio檔案系統在搜狗的實踐Alluxio記憶體檔案系統在搜狗的實踐

Alluxio檔案系統在搜狗的實踐Alluxio記憶體檔案系統在搜狗的實踐

本次分享主要包括了Spark shuffle 基於Alluxio的優化,以及基於Alluxio對於臨時表的效能改進:1.在搜狗大量的資料分析, 知識圖譜的資料製作使用Spark/SparkSQL來進行平行計算,大部分由於Spark On Yarn存在各類問題導致業務SLA水平僅為96%,結合Alluxio記憶體檔案系統,我們將Spark業務的穩定性水平SLA提升到99.22%,廣泛應用於資料分析以及高優先順序業務中;2.同時在搜狗存在部分任務使用Hive/Spark臨時表作為中間計算,使用Alluxio效能提升22.2%。目前Alluxio部署1000+機器上,運行了半年時間。

肖邦,搜狗大資料平臺高階開發工程師,主要負責致力於Spark/Hive計算引擎的開發與效能優化,結合Alluxio記憶體檔案系統提升計算穩定性等工作














原文https://www.slidestalk.com/s/Alluxio_Spark_Shuffle_Practice_at_Sogou