如何應對日產萬億訊息資料入庫瓶頸

阿新 • • 發佈：2018-12-10

講鋒刃大資料方案之前，我們先整體看看大資料平臺架構，有諸形於
內必形於外，很多區域性狀況的問題，需要從整體來看，為此，我們按照集
群狀況，典型業務流程和資料流、系統架構瓶頸點的思路順序，以表知裡
的進行一下梳理。
一、叢集狀況的反饋
當前 Hadoop 集群系統效能繁忙（3 大區域 7 大機房）， 1000 多儲存
機器對應 4000 多計算機器， cpu 平均值 70%-80%（晚 20 點到 0 點較低），
分鐘負載很高，任務積壓重； ech1 幾百兆，峰值幾個 g；磁碟 io 約幾
百兆，峰值幾 g，讀寫 iops3000。儲存計算比為 1： 2，業務 job 還在增長之勢，
： 3 到 1： 4 將達到叢集瓶頸。
很多時候我們看到叢集繁忙，只當作運維問題去解決，擴容叢集機器，
調整機房部署，優化排程能力和虛擬化，增強任務監控管理等。卻很少關
心叢集上跑的都是些什麼任務，為什麼會給叢集造成這麼大的壓力，我們
接下來通過梳理業務流程和資料流來搞清楚這個問題。

過對叢集、採集、通道、統計、儲存、資料治理、
idc、業務場景的全鏈路架構分析，歸納出以下瓶頸點：
1. Hadoop 叢集的繁忙壓力
2. 所有業務全部依賴離線 m/r 計算和 Hive SQL
3. log 採集的大量重複內容
4. MQ 叢集每日訊息總量萬億但無法提供內容過濾
5. 冷熱儲存、短期儲存（天內）、長期儲存（T+1，周、月、年）
混一起
6. 做到小時和分鐘級別統計很難。
7. 沒有一個統一精簡的資料模型形成標準。
8. 業務的儲存和計算還在迅速增長……
但是不可能所有的架構瓶頸都能在短時間內進行優化改進，我們需要
尋找一個最合適的切入點，先解決最迫切的問題

遷入實時計算進行優化的考慮
1. 經過分析了燈塔、應用寶、手機瀏覽器和手機管家，業務的相似主
線模式如下，更適合實時處理。
2. 清洗部分實時處理 DEMO 驗證：相對於離線計算 MAP/REDUCE
的時間消耗換算，耗用機器數從 84 臺降低到 15 臺 m10，完成了 90% 的
資料量進行流式清洗，包括：從 kafka 拉資料 -> 解包 ->byte2string-> 清洗
->string2byte->， 5 分鐘處理 10 億訊息資料， 333w/s，接近 mq 純拉取消
費的 360w/s。
3. 清洗轉換步驟，採用實時流處理架構如 Storm，通過 spout 從 MQ
獲取輸入流，自定義多個 bolt 並行處理輸入流，再依此組合設計。

如何應對日產萬億訊息資料入庫瓶頸

如何應對日產萬億訊息資料入庫瓶頸

MySQL如何實現萬億級資料儲存？

市值3萬億的facebook再出醜聞，你的資料，到底應該歸誰？

MySQL 億級資料需求的優化思路(二)，100億資料，1萬字段屬性的秒級檢索

萬豪5億房客資料被盜，我們該如何自救?

微軟開源資料處理引擎 Trill，每天可分析萬億次事件

百億資料入庫elasticsearch生產實踐（二）

每日新聞：中國母嬰幼市場將達3萬億；基於記憶體計算技術的智慧晶片問世；谷歌推圖片壓縮工具Squoosh；騰訊選定全球地圖資料提供商...

【思考-資料安全】【去中心化】市值3萬億的facebook再出醜聞，你的資料，到底應該歸誰？

萬億級日誌與行為資料儲存查詢技術剖析

MySQL作為新的NoSQL解決方案:輕鬆應對億級資料

Go 在萬億級大資料平臺開發中的實戰

MySQL 作為新的 NoSQL 解決方案: 輕鬆應對億級資料

萬億資料下Hadoop的核心競爭力

基於分散式關係型資料庫，實現輕鬆應對百億級資料分析場景解決方案

日均處理萬億資料！Flink在快手的應用實踐與技術演進之路

國家集成電路產業基金“二期”正在醞釀，規模直逼萬億

三季度移動支付達49.26萬億元，銀行慘遭微信支付寶碾壓

4月第4周業務風控關註 | 網絡犯罪經濟每年1.5萬億美元產出 GDP居全球第12位

雜文筆記《Redis在萬億級日訪問量下的中斷優化》

如何應對日產萬億訊息資料入庫瓶頸

相關推薦