Storm學習筆記(2)- Storm核心概念
阿新 • • 發佈:2019-01-10
文章目錄
官方連結:
http://storm.apache.org/releases/1.2.2/Concepts.html
核心概念
Topologies
拓撲,將整個流程串起來
Streams
流,資料流,水流
Spouts
產生資料/水的東西
Bolts
處理資料/水的東西 水壺/水桶
Tuple
資料/水
Storm核心概念理解記憶之地鐵執行模型
制約中國網際網路發展的最大瓶頸是什麼? 後廠村路
13號線:回龍觀==>龍澤==>西二旗
Storm核心概念理解記憶之Storm
Storm核心概念總結
-
Topology: 計算拓撲,由spout和bolt組成的:
實時應用程式的邏輯打包到Storm拓撲中。Storm拓撲類似於MapReduce作業。一個關鍵的區別是MapReduce作業最終會完成,而拓撲會永遠執行(當然,除非您終止它)。Topology是Stream相連線的Bolt和Spout組成的圖。 -
Stream:訊息流,抽象概念,沒有邊界的tuple構成:
流是Storm中的核心抽象概念。流是以分散式方式並行處理建立的無界元組序列。流是用一個模式定義的,該模式命名流元組中的欄位。預設情況下,元組可以包含整數、長、短、位元組、字串、雙數、浮點數、布林值和位元組陣列。您還可以定義自己的序列化器,以便自定義型別可以在元組中本機使用。 -
Tuple:(元組)訊息/資料 傳遞的基本單元
Stream由tuple構成 -
Spout:訊息流的源頭,Topology的訊息生產者
Spout是Topology中的stream源。通常,spouts將從外部源讀取tuple並將它們傳送到Topology(例如,Kestrel佇列或Twitter API)。Spout可以是可靠的,也可以是不可靠的。如果一個可靠的Spout沒有被Storm處理,那麼它就能夠重新處理tuple,而一個不可靠的噴口一旦發出tuple就會忘記這個tuple。 -
Bolt:訊息處理單元,可以做過濾、聚合、查詢/寫資料庫的操作
Topology中的所有處理都是在Bolt中完成的。bolt可以做任何事情,從過濾、函式、聚合、連線、到與資料庫對話等等。