Apache Storm 官方文件 —— 內部技術實現
這部分的 wiki 是為了說明 Storm 是怎樣實現的。在閱讀本章之前你需要先了解怎樣使用 Storm。
- 程式碼庫架構
- 拓撲的生命週期1
- 訊息傳遞的實現1
- 事務型拓撲的工作機制1
- 單元測試2
- 時間模擬
- 完整的拓撲
- 叢集跟蹤
說明
1 該文內容已過期。
2 該文官方文件暫未提供。
相關推薦
Apache Storm 官方文件 —— 內部技術實現
原文連結 譯者:魏勇 這部分的 wiki 是為了說明 Storm 是怎樣實現的。在閱讀本章之前你需要先了解怎樣使用 Storm。 程式碼庫架構 拓撲的生命週期1 訊息傳遞的實現1 事務型拓撲的工作機制1 單元測試2 時間模擬 完整的拓撲 叢集跟蹤 說明 1 該文內容已
Apache Storm 官方文件 —— Ack 框架的實現
原文連結 譯者:魏勇 Storm 的 acker 使用雜湊校驗和來跟蹤每個 tuple 樹的完成情況:每個 tuple 在被髮送出的時候,它的值會與校驗和進行異或運算,然後在 tuple 被 ack 的時候這個值又會再次與校驗和進行異或運算。這樣,一旦所有的 tuple 都被成功 ack
Apache Storm 官方文件 —— Trident State
Trident 中含有對狀態化(stateful)的資料來源進行讀取和寫入操作的一級抽象封裝工具。這個所謂的狀態(state)既可以儲存在拓撲內部(儲存在記憶體中並通過 HDFS 來實現備份),也可以存入像 Memcached 或者 Cassandra 這樣的外部資料庫中。而對於 Trident A
Apache Storm 官方文件 —— 配置
原文連結 譯者:魏勇 Storm 有大量配置項用於調整 nimbus、supervisors 和拓撲的行為。有些配置項是系統級的配置項,在拓撲中不能修改,另外一些配置項則是可以在拓撲中修改的。 每一個配置項都在 Storm 程式碼庫的 defaults.yaml 中有一個預設值。可以通過
Apache Storm 官方文件 —— 本地模式
原文連結 譯者:魏勇 本地模式是一種在本地程序中模擬 Storm 叢集的工作模式,對於開發和測試拓撲很有幫助。在本地模式下執行拓撲與在叢集模式下執行拓撲的方式很相似。 建立一個程序內的“叢集”只需要使用 LocalCluster 類即可,例如: import backtype.sto
Apache Storm 官方文件 —— Trident Spouts
原文連結 譯者:魏勇 與一般的 Storm API 一樣,spout 也是 Trident 拓撲的資料來源。不過,為了實現更復雜的功能服務,Trident Spout 在普通的 Storm Spout 之上另外提供了一些 API 介面。 資料來源、資料流以及基於資料流更新 state(比
Apache Storm 官方文件 —— FAQ
原文連結 譯者:魏勇 Storm 最佳實踐 關於配置 Storm + Trident 的建議 worker 的數量最好是伺服器數量的倍數;topology 的總併發度(parallelism)最好是 worker 數量的倍數;Kafka 的分割槽數(partitions)最好是 Spo
Apache Storm 官方文件 —— 命令列操作
原文連結 譯者:魏勇 本文介紹了 Storm 命令列客戶端中的所有命令操作。如果想要了解怎樣設定你的 Strom 客戶端和遠端叢集的互動,請按照配置開發環境一文中的步驟操作。 Storm 中支援的命令包括: jar kill activate deactivate rebalance
Apache Storm 官方文件 —— 容錯性
原文連結 譯者:魏勇 本文通過問答的形式解釋了 Storm 的容錯性原理。 工作程序(worker)死亡時會發生什麼? 工作程序死亡的時候,supervisor 會重新啟動這個程序。如果在啟動過程中仍然一直失敗,並且無法向 Nimbus 傳送心跳,Nimbus 就會將這個 worker
Apache Storm 官方文件 —— 基礎概念
原文連結 譯者:魏勇 Storm 系統中包含以下幾個基本概念: 拓撲(Topologies) 流(Streams) 資料來源(Spouts) 資料流處理元件(Bolts) 資料流分組(Stream groupings) 可靠性(Reliability) 任務(Tasks) 工作程序(W
Apache Storm 官方文件中文版
原文連結 譯者:魏勇 About 本專案是 Apache Storm 官方文件的中文翻譯版,致力於為有實時流計算專案需求和對 Apache Storm 感興趣的同學提供有價值的中文資料,希望能夠對大家的工作和學習有所幫助。 雖然 Storm 的正式推出已經有好幾個年頭了,發行版也已經到了
Apache Storm 官方文件 —— Storm 與 Kestrel
原文連結 譯者:魏勇 本文說明了如何使用 Storm 從 Kestrel 叢集中消費資料。 前言 Storm 本教程中使用了 storm-kestrel 專案和 storm-starter 專案中的例子。建議讀者將這幾個專案 clone 到本地,並動手執行其中的例子。 Kestrel
Apache Storm 官方文件 —— 分散式 RPC
原文連結 譯者:魏勇 分散式 RPC(DRPC)的設計目標是充分利用 Storm 的計算能力實現高密度的並行實時計算。Storm 接收若干個函式引數作為輸入流,然後通過 DRPC 輸出這些函式呼叫的結果。嚴格來說,DRPC 並不能算作是 Storm 的一個特性,因為它只是一種基於 Sto
Apache Storm 官方文件 —— Trident 教程
原文連結 譯者:魏勇 Trident 是 Storm 的一種高度抽象的實時計算模型,它可以將高吞吐量(每秒百萬級)資料輸入、有狀態的流式處理與低延時的分散式查詢無縫結合起來。如果你瞭解 Pig 或者 Cascading 這樣的高階批處理工具,你就會發現他們和 Trident 的概念非常相
Apache Storm 官方文件 —— 訊息的可靠性保障
原文連結 譯者:魏勇 Storm 能夠保證每一個由 Spout 傳送的訊息都能夠得到完整地處理。本文詳細解釋了 Storm 如何實現這種保障機制,以及作為使用者如何使用好 Storm 的可靠性機制。 訊息的“完整性處理”是什麼意思 一個從 spout 中傳送出的 tuple 會產生上千
Apache Storm 官方文件 —— 多語言介面協議
原文連結 譯者:魏勇 本文描述了 Storm (0.7.1 版本以上)的多語言介面協議。 Storm 多語言協議 Shell 元件 Storm 的多語言支援主要通過 ShellBolt,ShellSpout 和 ShellProcess 類來實現。這些類實現了 IBolt 介面、ISp
Apache Storm 官方文件 —— Trident API 概述
原文連結 譯者:魏勇 Trident 的核心資料模型是“流”(Stream),不過與普通的拓撲不同的是,這裡的流是作為一連串 batch 來處理的。流是分佈在叢集中的不同節點上執行的,並且對流的操作也是在流的各個 partition 上並行執行的。 Trident 中有 5 類操作:
Apache Storm 官方文件 —— 理解 Storm 拓撲的並行度(parallelism)概念
原文連結 譯者:魏勇 一個執行中的拓撲是由什麼構成的:工作程序(worker processes),執行器(executors)和任務(tasks) 在一個 Storm 叢集中,Storm 主要通過以下三個部件來執行拓撲: 工作程序(worker processes) 執行器(exec
Apache Storm 官方文件 —— 常用模式
原文連結 譯者:魏勇 本文列出了 Storm 拓撲中使用的一些常見模式,包括: 資料流的 join 批處理 BasicBolt 記憶體快取與域分組的結合 Top N 流式計算 TimeCacheMap CoordinatedBolt 與 KeyedFairBolt Joins 資料
Apache Storm 官方文件 —— 序列化
原文連結 譯者:魏勇 本文闡述了 Storm 0.6.0 以上版本的序列化機制。在低於 0.6.0 版本的 Storm 中使用了另一種序列化系統,詳細資訊可以參考 Serialization (prior to 0.6.0) 一文。 Storm 中的 tuple 可以包含任何型別的物件