1,Kafka系列學習筆記-認識kafka

阿新 • • 發佈：2018-12-12

慕課學習筆記https://www.imooc.com/learn/1043

1，Kafka概念

1>what?

    LinkedIn 開源

    分散式資料同步系統Databus

    高效能運算引擎Cubert

    Java非同步處理框架ParSeq

    Kafka流處理平臺

        LinkedIn開發

        2011年開源，加入apache

三個特性：

    1，釋出

    2，訂閱

    3，資料流的處理

概念

1，物理概念（硬體）

2，邏輯概念（程式碼或者策略邏輯）            

Producer：資料的生產者

Consumer：資料的消費者

Consumer Group：對於消費的升級

同一個Consumer Group中僅有一個Consumer讀取Topic的一個或多個Partitions，並且是唯一的Consumer

既然在同一個Group中只要一個Consumer為啥還要存在Group？

     1>容錯

     2>提高效能

Broker：物理概念，伺服器級別的kafka節點
               Broker Group中的每一個Broker儲存Topic的一個或者多個Partitions

Topic：邏輯概念，訊息類別，對資料進行區分，隔離

Partition:kafka下的最小儲存單元
	每一個topic被切分為多個Partitions
	消費者資料少於或者等於Partition的數目
	
Replication：同一個Partition可能會有多個Replica（Partition的備胎）

                基本單位Partition

                所有的讀和寫都從Leader進，Followers只是作為備份

                Follower必須能夠及時複製Leader的資料

                增加容錯性和可擴充套件性

Replication Leader： 一個Partition多個Replica只有一個Replication Leader，並且由Replication Leader去和Producer/Consumer去互動。

ReplicaManager：多有分割槽，副本訊息的請求/讀取等等

2，Kafka結構 1>四個核心api

    Producer API

    Consumer API

    Streams API

    Connectors API

2>Kafa訊息結構

    Offset：訊息當前所處於的偏移是多少

    Length：訊息的長度

    CRC32：校驗資訊的完整性

    Magic：固定的數字，快速判定是不是卡夫卡的訊息

    attributes：可選，列舉值

    timestamp：時間戳

    Key Length 長度

    Key

    Value Length 長度

    Value

特點：

分散式

    ·多分割槽

    ·多副本

    ·多訂閱者

    ·基於Zookeeper排程

高效能

    ·高吞吐量

    ·低延遲

    ·高併發

    ·時間複雜度O(1)

永續性和擴充套件性

    資料可持久化

    容錯性

    支援線上水平擴充套件：Broker可以有一個或者多個Partition

訊息自動平衡

3，Kafka場景及使用

·訊息佇列：

·行為跟蹤：跟蹤使用者瀏覽行為，實時記錄到Tokit

·元資訊監控：實時監控類似，實時收集使用者行為操作資訊

·日誌收集：將資料抽象成日誌進行處理

·流處理：對原始資料進行實時計算，實時處理等等到展示轉換

·事件源：回溯這些事件的源的處理

·永續性日誌（commit log）：可以在節點間備份日誌

Kafka的簡單案例

啟動

簡單生產者

簡單消費者

1,啟動安裝包中的Zookeeper

➜ bin/zookeeper-server-start.sh -daemon config/zookeeper.properties

2，啟動kafka

➜ bin/kafka-server-start.sh config/server.properties

3，建立topic

➜ bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

4，檢視topic

➜ bin/kafka-topics.sh --list --zookeeper localhost:2181
test

5，檢視kafka是否啟動

jps

6，開啟消費者視窗

➜ bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning

7，生產者視窗下作業並觀察消費者視窗是否有響應

➜ bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test 
Hello world！

1,Kafka系列學習筆記-認識kafka

慕課學習筆記https://www.imooc.com/learn/1043 1，Kafka概念 1>what? LinkedIn 開源分散式資料同步系統Databus

3，kafka系列學習筆記-使用IDEA建立java工程遠端除錯kafka

開啟伺服器遠端除錯 1，通過ssh 進入遠端伺服器 2，啟動Zookeeper 1>進入Zookeeper sbin目錄下啟動Zookeeper zkServer.sh start 3,啟動kafka 1，進入kafka config檔案下啟動kafka

Python時間序列LSTM預測系列學習筆記（1）-單變數

本文是對： https://machinelearningmastery.com/time-series-forecasting-long-short-term-memory-network-python/ https://blog.csdn.net/iyangdi/article/deta

Kafka學習筆記：Kafka環境搭建

Kafka環境搭建 Kafka單機環境搭建安裝必需 jdk，這裡使用的是jdk1.8 scala，需要獨立安裝scala，這裡使用的是scala 2.11.8 zookeeper，Kafka會自帶zk，但是最好使用獨立的安裝步驟 1.將Kafka的tar包上傳

Kafka學習筆記：Kafka命令列工具

Kafka命令列工具啟動Kafka kafka-server-start.sh /opt/software/kafka_2.11-1.1.0/config/server.properties & 檢視所有Topic列表 kafka-topics.sh --z

大資料學習筆記之kafka----分散式訊息釋出/訂閱系統

一、kafka簡介 kafka是Linkedin於2012年12月份開源的訊息系統 kafka是一個分散式的，基於釋出/訂閱的訊息系統； kafka：一個佇列平臺，不僅支援離線，還支援線上特點： --訊息持久化：通過O(1)的磁碟資料結構提供資料的持久化；針對磁碟

kafka系列之初步認識（零）

Kafka是什麼釋出/訂閱訊息中介軟體也被稱為分散式流平臺 Kafka的誕生最初是為了解決LinkedIn資料通道問題，最後捐獻給了Apache，是Apache的頂級專案。 Kafka適合的場景使用者行為跟蹤，可

SparkStreaming學習筆記:獲取kafka資料

在Spark Streaming中消費 Kafka 資料的時候，有兩種方式分別是： 1.基於 Receiver-based 的 createStream 方法。receiver從Kafka中獲取的資料都是儲存在Spark Executor的記憶體中的，然後Spark St

kafka學習筆記(二) kafka搭建

kafka安裝所需要的環境：1.java環境2.安裝zookeeper1.獲取kafka安裝檔案命令（opt目錄下）：wget https://archive.apache.org/dist/kafka/0.9.0.1/kafka_2.10-0.9.0.9.tgz解壓命令：t

《資料探勘》學習筆記——認識資料(1)

一、資料屬性定義屬性：即一個數據的欄位，在不同的領域有不同的等價叫法，例如：維度、特徵、變數。從具體事例角度看：資料的屬性就像Excel表格的列，比如：學生資料,其中姓名、學號、年齡等每一個標籤即為一個屬性。學號姓名年齡性

Kafka學習筆記4--Kafka生產者的客戶端（PHP）開發

一、準備工作雖然 Kafka 是用 Java/Scala 語言編寫的，但這不妨礙它對多語言的支援。可以在 Kafka 官網的 CLIENTS 檢視 Kafka 支援的語言，其中包括 C/C++、Python、Go 等語言。 PHP 操作 Kafka 需要安裝 librdkafka 庫和 kafka 的 PH

磁盤陣列raid0,raid1,raid5,raid0-1,raid1-0學習筆記

raid0 raid5 raid1 磁盤陣列磁盤陣列RAID ，REDUNDANTARRAYS OD INDEPENSIVE DISKS ,容錯廉價磁盤陣列，可以通過一些技術將多個較小的磁盤整合為一個較大的磁盤設備，而這個較大的磁盤功能不只是存儲，還具有數據保護的功能。整個RAID的等級不同

linux 2017-12-11 第1周第1次課學習筆記

網卡 swap mil inux 這樣的路由局域網網關 war 學習目標： 1:一但出發，必到達。 2:爭取在半年完成基礎學習。 3：出發目標8K，一到兩年爭取有18K-26K (會不會更高呢？) 學習制度：五次不完成當日課程退課。銘哥聯系：QQ·微信·電話·不回

2018-1-9 Linux學習筆記

ins var nic only 返回使用 str 刪除下載源 7.6 yum更換國內源 yum倉庫源默認是鏈接到國外的源,有時從國外的倉庫源下載會很慢,這時我們可將yum源更改成國內的倉庫源 ,其步驟如下:cd /etc/yum.repos.d #進入到yum源配

2018-1-11 Linux學習筆記

常用以及變量名劃線列表 alias linu 規則清理 8.6 管道符和作業控制 8.6.1管道符管道符"|",其作用是把前面的命令運行的結果交給後面的命令,例如cat 1.txt | grep ‘test‘8.6.2作業控制 Ctrl +

2018-1-12 Linux學習筆記

str and passwd 追加 -h 一行 naconda 命令使用 8.10 shell特殊符號cut命令 8.10.1 特殊符號符號 * : 任意個任意字符符號 ? : 任意一個字符符號 # : 註釋字符,即#後面的內容linux忽略掉符號 \ : 轉義字符,將後

2018-1-15 Linux學習筆記

oot txt str 學習 ima 處理 inittab sha 要求 9.1 正則介紹grep(上) 正則就是一串有規律的字符串.在很多文本編輯器或其他工具裏，正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容. 其實正則表達式，只是一種思想，一種表示方法。只

2018-1-17 Linux學習筆記(awk)[重要]

標準輸入 == 行處理 c語言開始正則表達正則表達式 $2 指定 9.6 awk(上) awk是一種編程語言，用於在linux/unix下對文本和數據進行處理。數據可以來自標準輸入(stdin)、一個或多個文件，或其它命令的輸出。它支持用戶自定義函數和動態正則表達式等

2018-1-22 Linux學習筆記

mem 網卡流量 img 9.png 哪些數字內存交換內存大小以及 10.1 使用w查看系統負載 w命令用於顯示已經登陸系統的用戶列表，並顯示用戶正在執行的指令。執行這個命令可得知目前登入系統的用戶有那些人，以及他們正在執行的程序。單獨執行w命令會顯示所有的用戶，

2018-1-23 Linux學習筆記

包括網絡狀態 1.10 區別 end 讀取表示域名服務器相同 10.6 監控io性能本節主要學iostat和iotop兩個監io性能的命令. iostat命令用於監視系統輸入輸出設備和CPU的使用情況.它匯報磁盤活動統計情況，同時也會匯報出CPU使用情況.ios

1,Kafka系列學習筆記-認識kafka

相關推薦