1. 程式人生 > >SparkStreaming學習筆記:獲取kafka資料

SparkStreaming學習筆記:獲取kafka資料

在Spark Streaming中消費 Kafka 資料的時候,有兩種方式分別是 :

1.基於 Receiver-based 的 createStream 方法。receiver從Kafka中獲取的資料都是儲存在Spark Executor的記憶體中的,然後Spark Streaming啟動的job會去處理那些資料。然而,在預設的配置下,這種方式可能會因為底層的失敗而丟失資料。如果要啟用高可靠機制,讓資料零丟失,就必須啟用Spark Streaming的預寫日誌機制(Write Ahead Log,WAL)。該機制會同步地將接收到的Kafka資料寫入分散式檔案系統(比如HDFS)上的預寫日誌中。所以,即使底層節點出現了失敗,也可以使用預寫日誌中的資料進行恢復。本文對此方式不研究,有興趣的可以自己實現,個人不喜歡這個方式。KafkaUtils.createStream

2.Direct Approach (No Receivers) 方式的 createDirectStream 方法,但是第二種使用方式中  kafka 的 offset 是儲存在 checkpoint 中的,如果程式重啟的話,會丟失一部分資料,我使用的是這種方式。KafkaUtils.createDirectStream。本文將用程式碼說明如何將 kafka 中的 offset 儲存到 zookeeper 中,以及如何從 zookeeper 中讀取已存在的 offset。

相關推薦

SparkStreaming學習筆記:獲取kafka資料

在Spark Streaming中消費 Kafka 資料的時候,有兩種方式分別是 : 1.基於 Receiver-based 的 createStream 方法。receiver從Kafka中獲取的資料都是儲存在Spark Executor的記憶體中的,然後Spark St

學習筆記 --- Kafka Spark Streaming獲取Kafka資料 Receiver與Direct的區別

Receiver 使用Kafka的高層次Consumer API來實現 receiver從Kafka中獲取的資料都儲存在Spark Executor的記憶體中,然後Spark Streaming啟動的job會去處理那些資料 要啟用高可靠機制,讓資料零丟失,就必須啟用Spark

資料學習筆記kafka----分散式訊息釋出/訂閱系統

一、kafka簡介 kafka是Linkedin於2012年12月份開源的訊息系統 kafka是一個分散式的,基於釋出/訂閱的訊息系統; kafka:一個佇列平臺,不僅支援離線,還支援線上 特點: --訊息持久化:通過O(1)的磁碟資料結構提供資料的持久化;針對磁碟

php學習筆記-獲取表單數據

全局 reac php echo 就是 方法 clas 學習 提交 在網頁上經常要填寫用戶名和密碼,點擊確認按紐之後,用戶名和密碼經過前端處理之後發送到了服務器上,那麽服務器端怎麽獲取到這些用戶提交的數據呢?就是通過超級全局變量 _POST和_GET 就拿_POST做一個例

Linux學習筆記 - 獲取root權限命令

root linux終端 blog isp inux su - root su - spa pre 1:Redhat系統或者Fedora或者CentOs的Linux發行版,那麽在Linux終端輸入命令回車:  su - root  這樣就可以切換到root權限了2:Ubun

python學習筆記02 --------------基礎資料型別

python的基本資料型別: 1.基本資料 1.1. 數字型別 1.1.1 整數 int int()           #將括號內內容轉化為整數型別。 1.1.2 浮點數 float 1.1.3 複數 complex  

WPF學習筆記 ComboBox的資料繫結

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

誰說菜鳥不會資料分析(入門篇)----- 學習筆記6(資料分析報告)

1、資料分析報告:三大作用四項基本原則 定義 是根據資料分析原理和方法,運用資料來反映、研究和分析某項事物的現狀、問題、原因、本質和規律,並得出結論,提出解決辦法的一種分析應用文體。 這種文體是決策者認識事物、瞭解事物、

誰說菜鳥不會資料分析(入門篇)----- 學習筆記5(資料展現:圖表)

1、圖表作用:表達形象化、突出重點、體現專業化 2、圖示型別: 3、通過關係選擇圖表 4、圖表製作5步法 5、圖表:圖所不能說的話 突出單元格顯示:絕對值 專案選取:相對值 資料條:量綱不同 圖示集:企業運營指標發展態勢監控 迷你圖

誰說菜鳥不會資料分析(入門篇)----- 學習筆記4(資料分析方法)

1、資料分析方法 資料分析作用與對應的分析方法 資料分析作用 基本方法 資料分析方法 現狀分析 對比 對比分析、平均分析、總和評價分析 原因分析

誰說菜鳥不會資料分析(工具篇)----- 學習筆記3(資料展現和日報月報自動化)

1、資料視覺化的意義 互動性:使用者能夠方便地通過互動介面實現資料的管理、計算與預測 多維性:可從資料的多個屬性或變數對資料進行切片、鑽取、旋轉等,以此剖析資料,從而能多角度、多方面分析資料 可視性:資料可用影象、二維圖形、三維圖形和動畫等方式來展現,並可對其模式和相互關係進行

WPF學習筆記 獲取ListBox的選中項

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

JQuery學習筆記-獲取並設定css類

JQuery中,擁有若干個進行CSS操作的方法。 addClass():向被選元素新增一個或多個類; removeClass():向被選元素刪除一個或多個類; toggleClass():對被選元素進行填加/刪除類的切換操作; css():設定或返回樣式屬性。 &

[學習筆記]可持久化資料結構 可持久化並查集

可持久化:支援查詢歷史版本和在歷史版本上修改   可持久化陣列 主席樹做即可。 【模板】可持久化陣列(可持久化線段樹/平衡樹)   可持久化並查集 可持久化並查集 主席樹做即可。 要按秩合併。(路徑壓縮每次建logn條鏈,會卡爆空間MLE) 主席樹節點,維護father

python的學習筆記01_4基礎資料型別列表 元組 字典 集合 其他其他(for,enumerate,range)

列表 定義:[]內以逗號分隔,按照索引,存放各種資料型別,每個位置代表一個元素  特性:    1.可存放多個值    2.可修改指定索引位置對應的值,可變    3.按照從左到右的順序定義列表元素,下標從0開始順序訪問,有序 、建立列表 只要把逗號分隔的不同資料項,使用方括號[],括起來即可,

tensorflow學習筆記1:影象資料的一些簡單操作

        博主學習TensorFlow不久,學習路上也是遇到不少問題。所以決定寫一個系列的學習筆記,算是記錄下學習歷程,方便以後翻閱。當然如果可以幫助到一些新手的話就更好了,高手請繞道。 1.影象資料的採集:     &nbs

JavaScript高階程式設計第三版學習筆記(一)之資料型別區分詳談

  null、NaN、undefined三者的區別是什麼?   在初次接觸到JavaScript的時候,傻傻的分不清null、NaN、undefined三者到底區別何在,在實際的專案開發中也因為這個問題而困惑久矣。針對這個問題,我特意查找了多方資料,在筆記本上做了詳細的分析記錄,但是由於紙質資料不便於攜帶、

Object C學習筆記1-基本資料型別說明

Objective-C資料型別可以分為:基本資料型別、物件型別和id型別。基本資料型別有:int、float、double和char型別。物件型別就是類或協議所宣告的指標型別,例如:NSAutoreleasePool * pool,其中NSAutoreleasePool是一個類,NSAutoreleasePo

Spark-Streaming獲取kafka資料的兩種方式:Receiver與Direct的方

 簡單理解為:Receiver方式是通過zookeeper來連線kafka佇列,Direct方式是直接連線到kafka的節點上獲取資料 回到頂部 使用Kafka的高層次Consumer API來實現。receiver從Kafka中獲取的資料都儲存在Spark Exec

誰說菜鳥不會資料分析(工具篇)----- 學習筆記3(資料準備、處理)

1、資料準備: 一維表的列標籤是欄位,二維表的列標籤是資料 資料表的設計要求 資料表由標題行和資料部分組成 第一行是標的列標題(欄位名),列標題不能重複 第二行是資料部分,資料部分的每一行資料稱為一個記錄,並且資料部分不允許出現空白行和空白列