《Apache Flink 官方文件》前言
原文連結 譯者:ivansong
本文件針對的是Apache Flink的 1.2.0版本。
Apache Flink是一個分散式流式和批量資料處理程式的開源平臺。Flink的核心是流式資料引擎,Flink通過資料流的分散式計算的方式提供資料的分發、通訊和容錯。Flink也構建了流引擎之上的批處理,覆蓋本地迭代上的支援,記憶體管理和程式優化。
1、第一步
- 基本概念:先從Flink的資料流程式模型和分散式實時環境的基本概念開始。這會幫助你完全理解文件的其他部分,包括安裝和程式設計指南。強烈推薦先閱讀這部分內容。
- 程式指南:你可以檢視我們文件中關於基本概念和資料流API或者資料集API的指南來學習如何構建你的第一個Flink 程式。
2、遷移指南
對於使用早期Apache Flink版本的使用者,我們推薦這個API遷移指南。雖然所有標記為公共的穩定的API的部分仍然受支援(這些公共的API是向後相容的) ,我們仍然建議將應用遷移到較新的介面上。
對於計劃升級生產環境中的Flink系統的使用者,我們推薦閱讀關於升級Apache Flink的指南。
相關推薦
《Apache Flink 官方文件》前言
原文連結 譯者:ivansong 本文件針對的是Apache Flink的 1.2.0版本。 Apache Flink是一個分散式流式和批量資料處理程式的開源平臺。Flink的核心是流式資料引擎,Flink通過資料流的分散式計算的方式提供資料的分發、通訊和容錯。Flink也構建了流引擎之上的批
《Apache Flink官方文件》 Apache Flink介紹
原文連結 譯者:ivansong 下面是關於Apache Flink(以下簡稱Filnk)框架和流式計算的概述。為了更專業、更技術化的介紹,在Flink文件中推薦了一些“概念性”的文章。 1、無窮資料集的持續計算 在我們詳細介紹Flink前,複習一下當我們計算資料選擇運算模型時,很可能會遇到
《Apache Flink官方文件》程式設計模型
原文連結 譯者:魏勇 抽象層次 Flink 能夠為流式計算或批處理應用提供多種層次的抽象介面。 最低階的抽象介面是狀態化的資料流介面。這個介面是通過 ProcessFunction 整合到 資料流 API 中的。此類介面讓使用者可以使用連續的容錯狀態,並且可以不受限制地處理多個數據
《Apache Flink官方文件》分散式執行時環境
原文連結 譯者:魏勇 任務與運算鏈 在實際的分散式計算環境中,Flink 會將多個運運算元任務連結到分散式計算任務中。每個執行緒執行一個計算任務。將運算子連結到計算任務中對於系統性能的提升有很大的幫助:它降低了執行緒間切換與緩衝的開銷,並且在降低延時的同時減少了系統的總體吞吐量。可以對
Apache Flink 官方文件--概覽
原文連結 本文件適用於Apache Flink 1.7版。這些頁面的構建時間為:12/25/18,UTC時間01:02:09 Apache Flink是一個用於分散式流和批處理資料處理的開源平臺。Flink的核心是流資料流引擎,為資料流上的分散式計算提供資料分發,通訊和容錯。Flink在流引擎之上構建批處
Apache Flink 官方文件--概念
資料流程式設計模型 原文連結博主理解篇 抽象層次 Flink提供不同級別的抽象來開發流/批處理應用程式。 這個最低級別的抽象提供了有狀態的流式操作。它是通過處理函式嵌入到DataStream API。它允許使用者自由的處理一個或者多個數據流中的事件,並且使用一致,容錯的狀態。此外,使用者
Apache Flink 官方文件翻譯之程式設計模型
抽象層次Flink 能夠為流式計算或批處理應用提供多種層次的抽象介面。最低階的抽象介面是狀態化的資料流介面。這個介面是通過 ProcessFunction 整合到 資料流 API 中的。此類介面讓使用者可以使用連續的容錯狀態,並且可以不受限制地處理多個數據流中的
Apache Storm 官方文件 —— Trident State
Trident 中含有對狀態化(stateful)的資料來源進行讀取和寫入操作的一級抽象封裝工具。這個所謂的狀態(state)既可以儲存在拓撲內部(儲存在記憶體中並通過 HDFS 來實現備份),也可以存入像 Memcached 或者 Cassandra 這樣的外部資料庫中。而對於 Trident A
Flume.apache.org 官方文件學習筆記 part one
Apache Flume 是一個分散式,可靠且可用的系統,用於有效地從許多不同的源收集,聚合和移動大量日誌資料到集中式資料儲存。 Apache Flume的使用不僅限於日誌資料聚合。由於資料來源是可定製的,因此Flume可用於傳輸大量事件資料,包括但不限於網路流量資料
Flume.apache.org 官方文件學習筆記 part two
配置個體元件: 當你定義了這個流之後,你需要去設定每個資源、接收器、通道的屬性。這是在你設定元件型別和每個元件的特定屬性值的同一層名稱空間內完成的。 # properties for sources <Agent>.sources.<S
Flume.apache.org 官方文件學習筆記 part three
JMS 源: jms源閱讀從jms目的地發來的資訊,例如佇列,主題等。 作為一個jms應用程式,他應該和jms提供程式一起工作,但是僅使用ActiveMQ進行測試。JMS源提供可配置的批量大小,訊息選擇器,使用者/傳遞還有訊息到接收器事件轉換器。 要
Flume.apache.org 官方文件學習筆記 part five
kafka 源: Kafka 源是Apache Kafka 消耗者,讀取來自kafka主題的資訊。如果你有多個Kafka源在執行,你可以給他們配置一樣的使用者群組,以便每個源都讀取一組唯一的主題分割槽。 要注
《Apache Hive官方文件》首頁
原文連結 譯者:BJdaxiang Apache Hive是一款資料倉庫軟體,通過SQL使得分散式儲存系統中的大的資料集的讀、寫和管理變得容易。使用者可以使用自帶的命令列工具和JDBC驅動用來連線Hive。 開始Apache Hive之旅 在我們的wiki上了解更多關於Hive的功能。
Apache Storm 官方文件 —— 配置
原文連結 譯者:魏勇 Storm 有大量配置項用於調整 nimbus、supervisors 和拓撲的行為。有些配置項是系統級的配置項,在拓撲中不能修改,另外一些配置項則是可以在拓撲中修改的。 每一個配置項都在 Storm 程式碼庫的 defaults.yaml 中有一個預設值。可以通過
Apache Storm 官方文件 —— 本地模式
原文連結 譯者:魏勇 本地模式是一種在本地程序中模擬 Storm 叢集的工作模式,對於開發和測試拓撲很有幫助。在本地模式下執行拓撲與在叢集模式下執行拓撲的方式很相似。 建立一個程序內的“叢集”只需要使用 LocalCluster 類即可,例如: import backtype.sto
《Apache Thrift官方文件》簡介
Apache Thrift 最後修改時間: 2017-11-11 簡介 Thrift是一個輕量級、語言無關的軟體棧,它具有一套為RPC通訊生成程式碼的機制。Thrift為資料的傳輸、序列化,以及應用層處理提供了乾淨的抽象。採用這種抽象棧,它的程式碼生成器僅使用一種簡潔的定義語言作為輸入,便能
《Apache Zookeeper 官方文件》管理分散式系統就像管理動物園一樣
原文連結 譯者:方騰飛,JIT Zookeeper 是一個高效能的分散式應用協調服務框架. 它以一種簡單介面的形式暴露了一系列的通用服務,比如命名,配置管理,同步和分組等。 因此你不必從一堆草稿中去實現他們。你可以使用現成的東西去實現一致性,分組管理,機器選擇和已經存在的一些協議。同時你能夠用
Apache Storm 官方文件 —— Trident Spouts
原文連結 譯者:魏勇 與一般的 Storm API 一樣,spout 也是 Trident 拓撲的資料來源。不過,為了實現更復雜的功能服務,Trident Spout 在普通的 Storm Spout 之上另外提供了一些 API 介面。 資料來源、資料流以及基於資料流更新 state(比
Apache Storm 官方文件 —— FAQ
原文連結 譯者:魏勇 Storm 最佳實踐 關於配置 Storm + Trident 的建議 worker 的數量最好是伺服器數量的倍數;topology 的總併發度(parallelism)最好是 worker 數量的倍數;Kafka 的分割槽數(partitions)最好是 Spo
《Flink官方文件》翻譯邀請
翻譯完成之後請登入到併發網提交成待稽核狀態,會有專門的編輯校對後進行釋出。校對完之後被評為A級會升級您為譯者,並加入譯者溝通群。如果在本站翻譯超過十篇文章,將有禮品贈送,比如簽名版的《Java併發程式設計的藝術》或者其他圖書。如果譯文釋出到併發網公眾號,讚賞歸譯者所有。如果你喜歡使用markdown編寫文章