Storm簡介——實時流式計算介紹

阿新 • • 發佈：2018-04-24

大數據 bsp 要求角度 size 計算 spa 流量使用場景

概念

實時流式計算：

大數據環境下，流式數據將作為一種新型的數據類型，這種數據具有連續性、無限性和瞬時性。是實時數據處理所面向的數據類型，對這種流式數據的實時計算就是實時流式計算。

特征

實時流式計算與傳統的數據處理技術不同，其具有一下特點：

低延遲：從處理的數據角度來看，每一條數據都可以在有限的時間內由系統成功處理完成，就是響應的時間很短。

高吞吐：從處理的過程角度來看，系統節點在單位時間內能夠成功處理的數據量比較多，也就是高吞吐量。對於數據處理的目標本質來說高吞吐量和低延遲是一樣的。

高容錯：由於網絡或其他原因，會出現錯誤或不完全的數據，系統對與這些數據都具有一定的容錯性，不會因為這些

有缺失的數據導致系統崩潰。

算法復雜點比較低：高吞吐量的必然要求，就要求使用更加高效簡單的算法。

使用場景

網站後臺日誌實時計算處理

運營商流量實時監控

交通數據實時處理

其他流式計算框架

Queue+Worker

Apache S4

Spark Streaming

（storm的計算是基於事件的，來一條數據流處理一條；spark streaming 是基於時間段來處理數據的，時間段可以越來越小，但不能基於事件來處理。這樣就決定了storm的延遲性比spark streaming要小）

Storm簡介——實時流式計算介紹

大數據 bsp 要求角度 size 計算 spa 流量使用場景概念實時流式計算：大數據環境下，流式數據將作為一種新型的數據類型，這種數據具有連續性、無限性和瞬時性。是實時數據處理所面向的數據類型，對這種流式數據的實時計算就是實時流式計算。特