Apache Storm 官方文件 —— 內部技術實現

阿新 • • 發佈：2018-12-23

這部分的 wiki 是為了說明 Storm 是怎樣實現的。在閱讀本章之前你需要先了解怎樣使用 Storm。

程式碼庫架構
拓撲的生命週期¹
訊息傳遞的實現¹
事務型拓撲的工作機制¹
單元測試²
- 時間模擬
- 完整的拓撲
- 叢集跟蹤

說明

¹ 該文內容已過期。
² 該文官方文件暫未提供。

Apache Storm 官方文件 —— 內部技術實現

原文連結譯者：魏勇這部分的 wiki 是為了說明 Storm 是怎樣實現的。在閱讀本章之前你需要先了解怎樣使用 Storm。程式碼庫架構拓撲的生命週期1 訊息傳遞的實現1 事務型拓撲的工作機制1 單元測試2 時間模擬完整的拓撲叢集跟蹤說明 1 該文內容已

Apache Storm 官方文件 —— Ack 框架的實現

原文連結譯者：魏勇 Storm 的 acker 使用雜湊校驗和來跟蹤每個 tuple 樹的完成情況：每個 tuple 在被髮送出的時候，它的值會與校驗和進行異或運算，然後在 tuple 被 ack 的時候這個值又會再次與校驗和進行異或運算。這樣，一旦所有的 tuple 都被成功 ack

Apache Storm 官方文件 —— Trident State

Trident 中含有對狀態化（stateful）的資料來源進行讀取和寫入操作的一級抽象封裝工具。這個所謂的狀態（state）既可以儲存在拓撲內部（儲存在記憶體中並通過 HDFS 來實現備份），也可以存入像 Memcached 或者 Cassandra 這樣的外部資料庫中。而對於 Trident A

Apache Storm 官方文件 —— 配置

原文連結譯者：魏勇 Storm 有大量配置項用於調整 nimbus、supervisors 和拓撲的行為。有些配置項是系統級的配置項，在拓撲中不能修改，另外一些配置項則是可以在拓撲中修改的。每一個配置項都在 Storm 程式碼庫的 defaults.yaml 中有一個預設值。可以通過

Apache Storm 官方文件 —— 本地模式

原文連結譯者：魏勇本地模式是一種在本地程序中模擬 Storm 叢集的工作模式，對於開發和測試拓撲很有幫助。在本地模式下執行拓撲與在叢集模式下執行拓撲的方式很相似。建立一個程序內的“叢集”只需要使用 LocalCluster 類即可，例如： import backtype.sto

Apache Storm 官方文件 —— Trident Spouts

原文連結譯者：魏勇與一般的 Storm API 一樣，spout 也是 Trident 拓撲的資料來源。不過，為了實現更復雜的功能服務，Trident Spout 在普通的 Storm Spout 之上另外提供了一些 API 介面。資料來源、資料流以及基於資料流更新 state（比

Apache Storm 官方文件 —— FAQ

原文連結譯者：魏勇 Storm 最佳實踐關於配置 Storm + Trident 的建議 worker 的數量最好是伺服器數量的倍數；topology 的總併發度(parallelism)最好是 worker 數量的倍數；Kafka 的分割槽數(partitions)最好是 Spo

Apache Storm 官方文件 —— 命令列操作

原文連結譯者：魏勇本文介紹了 Storm 命令列客戶端中的所有命令操作。如果想要了解怎樣設定你的 Strom 客戶端和遠端叢集的互動，請按照配置開發環境一文中的步驟操作。 Storm 中支援的命令包括： jar kill activate deactivate rebalance

Apache Storm 官方文件 —— 容錯性

原文連結譯者：魏勇本文通過問答的形式解釋了 Storm 的容錯性原理。工作程序（worker）死亡時會發生什麼？工作程序死亡的時候，supervisor 會重新啟動這個程序。如果在啟動過程中仍然一直失敗，並且無法向 Nimbus 傳送心跳，Nimbus 就會將這個 worker

Apache Storm 官方文件 —— 基礎概念

原文連結譯者：魏勇 Storm 系統中包含以下幾個基本概念：拓撲（Topologies）流（Streams）資料來源（Spouts）資料流處理元件（Bolts）資料流分組（Stream groupings）可靠性（Reliability）任務（Tasks）工作程序（W

Apache Storm 官方文件中文版

原文連結譯者：魏勇 About 本專案是 Apache Storm 官方文件的中文翻譯版，致力於為有實時流計算專案需求和對 Apache Storm 感興趣的同學提供有價值的中文資料，希望能夠對大家的工作和學習有所幫助。雖然 Storm 的正式推出已經有好幾個年頭了，發行版也已經到了

Apache Storm 官方文件 —— Storm 與 Kestrel

原文連結譯者：魏勇本文說明了如何使用 Storm 從 Kestrel 叢集中消費資料。前言 Storm 本教程中使用了 storm-kestrel 專案和 storm-starter 專案中的例子。建議讀者將這幾個專案 clone 到本地，並動手執行其中的例子。 Kestrel

Apache Storm 官方文件 —— 分散式 RPC

原文連結譯者：魏勇分散式 RPC（DRPC）的設計目標是充分利用 Storm 的計算能力實現高密度的並行實時計算。Storm 接收若干個函式引數作為輸入流，然後通過 DRPC 輸出這些函式呼叫的結果。嚴格來說，DRPC 並不能算作是 Storm 的一個特性，因為它只是一種基於 Sto

Apache Storm 官方文件 —— Trident 教程

原文連結譯者：魏勇 Trident 是 Storm 的一種高度抽象的實時計算模型，它可以將高吞吐量（每秒百萬級）資料輸入、有狀態的流式處理與低延時的分散式查詢無縫結合起來。如果你瞭解 Pig 或者 Cascading 這樣的高階批處理工具，你就會發現他們和 Trident 的概念非常相

Apache Storm 官方文件 —— 訊息的可靠性保障

原文連結譯者：魏勇 Storm 能夠保證每一個由 Spout 傳送的訊息都能夠得到完整地處理。本文詳細解釋了 Storm 如何實現這種保障機制，以及作為使用者如何使用好 Storm 的可靠性機制。訊息的“完整性處理”是什麼意思一個從 spout 中傳送出的 tuple 會產生上千

Apache Storm 官方文件 —— 多語言介面協議

原文連結譯者：魏勇本文描述了 Storm （0.7.1 版本以上）的多語言介面協議。 Storm 多語言協議 Shell 元件 Storm 的多語言支援主要通過 ShellBolt，ShellSpout 和 ShellProcess 類來實現。這些類實現了 IBolt 介面、ISp

Apache Storm 官方文件 —— Trident API 概述

原文連結譯者：魏勇 Trident 的核心資料模型是“流”（Stream），不過與普通的拓撲不同的是，這裡的流是作為一連串 batch 來處理的。流是分佈在叢集中的不同節點上執行的，並且對流的操作也是在流的各個 partition 上並行執行的。 Trident 中有 5 類操作：

Apache Storm 官方文件 —— 理解 Storm 拓撲的並行度(parallelism)概念

原文連結譯者：魏勇一個執行中的拓撲是由什麼構成的：工作程序（worker processes），執行器（executors）和任務（tasks）在一個 Storm 叢集中，Storm 主要通過以下三個部件來執行拓撲：工作程序（worker processes）執行器（exec

Apache Storm 官方文件 —— 常用模式

原文連結譯者：魏勇本文列出了 Storm 拓撲中使用的一些常見模式，包括：資料流的 join 批處理 BasicBolt 記憶體快取與域分組的結合 Top N 流式計算 TimeCacheMap CoordinatedBolt 與 KeyedFairBolt Joins 資料

Apache Storm 官方文件 —— 序列化

原文連結譯者：魏勇本文闡述了 Storm 0.6.0 以上版本的序列化機制。在低於 0.6.0 版本的 Storm 中使用了另一種序列化系統，詳細資訊可以參考 Serialization (prior to 0.6.0) 一文。 Storm 中的 tuple 可以包含任何型別的物件

Apache Storm 官方文件 —— 內部技術實現

說明

相關推薦