kafka叢集Broker端引數設定及調優準則建議-kafka 商業環境實戰

阿新 • • 發佈：2018-12-20

1 Distributed streaming platform

Apache Kafka® is a distributed streaming platform. What exactly does that mean?
A streaming platform has three key capabilities:
   -  Publish and subscribe to streams of records, similar to a message queue or enterprise messaging system.
   -  Store streams of records in a fault-tolerant durable way.
   -  Process streams of records as they occur.

Kafka is generally used for two broad classes of applications:
- Building real-time streaming data pipelines that reliably get data between systems or applications
- Building real-time streaming applications that transform or react to the streams of data

To understand how Kafka does these things, let's dive in and explore Kafka's capabilities from the bottom up.First a few concepts:

- Kafka is run as a cluster on one or more servers that can span multiple datacenters.
- The Kafka cluster stores streams of records in categories called topics.
- Each record consists of a key, a value, and a timestamp.

2 Kafka as a Storage System

Any message queue that allows publishing messages decoupled from consuming them 
is effectively acting as a storage system for the in-flight messages. What is 
different about Kafka is that it is a very good storage system.

- Data written to Kafka is written to disk and replicated for fault-tolerance. 
Kafka allows producers to wait on acknowledgement so that a write isn't considered
complete until it is fully replicated and guaranteed to persist even if the server 
written to fails.

- The disk structures Kafka uses scale well，Kafka will perform the same whether you 
have 50 KB or 50 TB of persistent data on the server.

- As a result of taking storage seriously and allowing the clients to control 
their read position, you can think of Kafka as a kind of special purpose 
distributed filesystem dedicated to high-performance, low-latency commit 
log storage, replication, and propagation.

3 kafka實現高吞吐率的祕密

一個使用者程式要把檔案內容傳送到網路這個使用者程式是工作在使用者空間，檔案和網路socket屬於硬體資源，兩者之間有一個核心空間。因此在作業系統內部，整個過程為：

在Linux kernel2.2 之後出現了一種叫做"零拷貝(zero-copy)"系統呼叫機制，就是跳過“使用者緩衝區”的拷貝，建立一個磁碟空間和記憶體的直接對映，資料不再複製到“使用者態緩衝區”

kafka的佇列topic被分為了多個區partition，每個partition又分為多個段segment，所以一個佇列中的訊息實際上是儲存在N多個片段檔案中，通過分段的方式，每次檔案操作都是對一個小檔案的操作，增加了並行處理能力

kafka允許進行批量傳送訊息，先將訊息快取在記憶體中，然後通過一次請求批量把訊息傳送出去，比如：可以指定快取的訊息達到某個量的時候就發出去，或者快取了固定的時間後就傳送出去，如100條訊息就傳送，或者每5秒傳送一次這種策略將大大減少服務端的I/O次數。
kafka還支援對訊息集合進行壓縮，Producer可以通過GZIP或Snappy格式或LZ4對訊息集合進行壓縮,壓縮的好處就是減少傳輸的資料量，減輕對網路傳輸的壓力。

kafka叢集Broker端引數設定及調優準則建議-kafka 商業環境實戰

1 Distributed streaming platform Apache Kafka® is a distributed streaming platform. What exactly d

kafka叢集Broker端基於Reactor模式請求處理流程深入剖析-kafka商業環境實戰

本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。期待加入IOT時代最具戰鬥力的團隊。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡。

java-xx引數介紹及調優總結

功能開關: 引數預設值或限制說明引數預設值功能 -XX:-AllowUserSignalHandlers 限於Linux和Solaris，預設不啟用

kafka叢集Producer基本資料結構及工作流程深入剖析-kafka 商業環境實戰

本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。期待加入IOT時代最具戰鬥力的團隊。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡

kafka叢集基於永續性指標進行效能調優實踐-kafka 商業環境實戰

kafka叢集基於吞吐量指標進行效能調優實踐-kafka 商業環境實戰

Spark on yarn模式的引數設定即調優

1 啟動方式執行命令./spark-shell --master yarn預設執行的是client模式。執行./spark-shell --master yarn-client或者./spark-shell --master yarn --deploy-m

JVM引數總結及調優

JVM引數總結引數描述 UseSeialGC 虛擬機器執行在client模式下的預設值；使用Serial+SerialOld的收集器組合進行記憶體回收 UseP

HDFS NameNode 高併發資料讀寫架構及QJM選舉深入研究-Hadoop商業環境實戰

HBase HFile Compact多種合併策略原理剖析及場景建議-OLAP商業環境實戰

本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何學術交流，可隨時聯絡。

Presto基於MPP架構的部署及使用技術詳解-OLAP商業環境實戰

1 安裝配置安裝presto後，需另建一個資料夾用於儲存日誌、本地元資料等的資料目錄。 config.properties ：Presto 服務配置。 node.properties ：環境變數配置

JVM調優常用引數設定及JMX引數設定監控

JVM常用引數設定 JVM堆空間佈局堆設定 -Xms：初始堆大小，避免垃圾回收之後，JVM調整，一般和Xmx設定一樣大 -Xmx：最大堆大小 -Xmn : 年輕代大小，整個堆大小=年輕代大小

JVM調優手冊之六：JVM引數設定及分析

不管是YGC還是Full GC,GC過程中都會對導致程式執行中中斷,正確的選擇不同的GC策略,調整JVM、GC的引數，可以極大的減少由於GC工作，而導致的程式執行中斷方面的問題，進而適當的提高Java程式的工作效率。但是調整GC是以個極為複雜的過程，由於各個程式

Bootstrap-table實現查詢、分頁、匯出、引數設定及前後端程式碼示例詳解

$(function(){ initTable(); }); function initTable() { //先銷燬表格 $("#bootstrapTable").bootstrapTable({ //表格高度 height: getHeight

HBase 核心元件協調及RegionServer JVM引數調優-OLAP商業環境實戰

本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何商業交流，可隨時聯絡。 1 弱化的Master

kafka叢集基於延時指標進行效能調優實踐-kafka 商業環境實戰

kafka叢集基於可用性指標進行效能調優實踐-kafka 商業環境實戰

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。期待加入IOT時代最具戰鬥力的團隊。QQ郵箱地址：[email protected]，如有任何學術交流，

學習筆記：【Web 叢集實戰】05_CentOS 7.x 系統安裝後的基本配置及調優_楊利婷

一、基本配置網路配置網路配置常用的兩種方式為橋接和 NAT 模式。本文采用的是 NAT 模式連線網路。瞭解更多網路型別可參照【Web 叢集實戰】01_VMware 虛擬機器常見的網路型別 1）首先，在宿主機 Windows 的計算機管理 - 服

HBase的Compact引數設定及資料讀寫流程剖析-OLAP商業環境實戰

1 HBase Compact 功能剖析 Compaction會從一個region的一個store中選擇一些hfile檔案進行合併。合併說來原理很簡單，先從這些待合併的資料檔案中讀出KeyValues，

基於Python的Spark Streaming+Kafka程式設計實踐及調優總結

說明Spark Streaming的原理說明的文章很多，這裡不做介紹。本文主要介紹使用Kafka作為資料來源的程式設計模型,編碼實踐,以及一些優化說明演示環境Spark:1.6Kafka:kafka_2.11-0.9.0.1實現語言：Python程式設計模型目前Spark S

kafka叢集Broker端引數設定及調優準則建議-kafka 商業環境實戰

1 Distributed streaming platform

2 Kafka as a Storage System

3 kafka實現高吞吐率的祕密

相關推薦