Storm簡介——實時流式計算介紹
阿新 • • 發佈:2018-04-24
大數據 bsp 要求 角度 size 計算 spa 流量 使用場景
概念
實時流式計算:
大數據環境下,流式數據將作為一種新型的數據類型,這種數據具有連續性、無限性和瞬時性。是實時數據處理所面向的數據類型,對這種流式數據的實時計算就是實時流式計算。
特征
實時流式計算與傳統的數據處理技術不同,其具有一下特點:
低延遲:從處理的數據角度來看,每一條數據都可以在有限的時間內由系統成功處理完成,就是響應的時間很短。
高吞吐:從處理的過程角度來看,系統節點在單位時間內能夠成功處理的數據量比較多,也就是高吞吐量。對於數據處理的目標本質來說高吞吐量和低延遲是一樣的。
高容錯:由於網絡或其他原因,會出現錯誤或不完全的數據,系統對與這些數據都具有一定的容錯性,不會因為這些
有缺失的數據導致系統崩潰。
算法復雜點比較低:高吞吐量的必然要求,就要求使用更加高效簡單的算法。
使用場景
網站後臺日誌實時計算處理
運營商流量實時監控
交通數據實時處理
其他流式計算框架
Queue+Worker
Apache S4
Spark Streaming
(storm的計算是基於事件的,來一條數據流處理一條;spark streaming 是基於時間段來處理數據的,時間段可以越來越小,但不能基於事件來處理。這樣就決定了storm的延遲性比spark streaming要小)
Storm簡介——實時流式計算介紹