[第二章]了解storm
1、什麽是storm
Apache Storm is a free and open source distributed realtime computation system.
免費、開源、分布式、實時計算系統
Storm makes it easy to reliably process unbounded streams of data
unbounded:無界,源源不斷
bounded:Hadoop/spark SQL 離線 (input-->output)
doing for realtime processing what Hadoop did for batch processing
storm:實時流處理
Hadoop:離線批處理
2、storm能做什麽?
Storm has many use cases:
realtime analytics:實時分析
online machine learning:在線機器學習
continuous computation:持續計算
distributed RPC,
ETL:
and more.
3、storm的特點
fast: over a million tuples processed per second per node.
scalable(可添加機器)
fault-tolerant
guarantees your data will be processed
easy to set up and operate.
storm能實現高頻數據和大規模數據的實時處理
4、storm發展歷史
storm產生於twitter
需求:大戶數的實時處理
實時系統要考慮:
1)健壯性
2)拓展性/分布式
3)數據不丟失不重復
4)高性能低延時
5、storm和Hadoop的區別
處理過程
Hadoop map reduce
storm spout bolt
storm進程不殺死不結束
Hadoop進程完成就結束
6、發展趨勢
看:
社區的發展、活躍度
企業的需求
大數據的相關大會,如storm的數量上升
互聯網公司使用度
[第二章]了解storm