kafka選擇分割槽的原則:
選擇分割槽的原則:
1.主題需要多大的吞吐量,是希望每秒寫入100kb,還是1GB
2.從單個分割槽讀取資料的最大吞吐量,資料寫入資料庫的速度不會超過每秒50M,所以從一個分割槽讀資料的速度也不要超過50M
3.可以估算生產者向單個分割槽寫入資料的吞吐量,生產者的速度一般比消費者快,最高為生產者多估算一些量。
4.每個broker包含的分割槽個數,可用磁碟空間和網路頻寬
5.若訊息按照不同的鍵來寫入分割槽,那麼為已有的主題新增分割槽就很困難
6.單個broker對分割槽個數是有限制,因為分割槽越多,佔用的記憶體越多,完成首領的選舉需要更長的時間。
使用主題吞吐量除以消費者吞吐量算出分割槽個數。也就是每秒從主題上寫入和讀取1GB的資料,並且每個消費者每秒鐘可以處理50MB資料。那麼至少需要20個分割槽,這樣20個消費者同時讀取這些分割槽,從而達到每秒1GB的資料。
如果不知道以上資訊,最好把分割槽大小限制再25GB以內可以得到比較理想得效果。
相關推薦
kafka選擇分割槽的原則:
選擇分割槽的原則: 1.主題需要多大的吞吐量,是希望每秒寫入100kb,還是1GB 2.從單個分割槽讀取資料的最大吞吐量,資料寫入資料庫的速度不會超過每秒50M,所以從一個分割槽讀資料的速度也不要超過50M 3.可以估算生產者向單個分割槽寫入資料的吞吐量,生產者的速度一般比消費者快,最高為生
Apache Kafka程式設計入門指南:設定分割槽數和複製因子
我們學習瞭如何編寫簡單的Kafka Producer程式。在那個例子中,在如果需要傳送的topic不存在,Producer將會建立它。我們都知道(假設你知道),每個topic都是有分割槽數和複製因子的,但是我們無法通過Producer相關的API設定分割槽數和複製因子的,
Spark Streaming,Flink,Storm,Kafka Streams,Samza:如何選擇流處理框架
![](https://img2020.cnblogs.com/blog/1089984/202006/1089984-20200610080225004-690722209.png) 根據最新的統計顯示,僅在過去的兩年中,當今世界上90%的資料都是在新產生的,每天建立2.5萬億位元組的資料,並且隨著新裝
OO的五大原則:SRP、OCP、LSP、DIP、ISP
特性 我們 方法 研究 處的 否則 esp 完全 部分 現將近期整理的文檔提供給大家,這裏對LSP做重點的介紹,望對大家有幫助,在學習和使用OO設計的時候,我們應該明白:OO的出現使得軟件工程師們能夠用更接近真實世界的方法描述軟件系統。然而,軟件畢竟是建立在抽象層次上的東西
Spark2.0 特征提取、轉換、選擇之二:特征選擇、文本處理,以中文自然語言處理(情感分類)為例
true 方便 linear value taf 文檔 ota ati inter 特征選擇 RFormula RFormula是一個很方便,也很強大的Feature選擇(自由組合的)工具。 輸入string 進行獨熱編碼(見下面例子country) 輸入數值型轉換為dou
13.選擇器案例:動態效果列表
lns borde html 佳能 動態 rip 選擇 top 卡西歐 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/x
BGP的選舉原則:十三軍規
bgp 網絡BGP的選路原則:前提(路由的下一跳可達、關閉同步、路由沒有被懲罰、前綴沒有被入境路由策略拒絕),具體原則如下:1:weight先比較管理權重(越大越優先),這個參數本地有效。雖然Weight屬性是Cisco私有的,但是很多廠商也是內置該屬性(但無法顯示及修改),這樣就保證了本地始發的路由是最
運行時多態的三原則:(應用時為覆蓋)
tex print void col code style 編譯 應用程序 int 運行時多態的三原則:(應用時為覆蓋) 1、對象不變;(改變的是主觀認識) 2、對於對象的調用只能限於編譯時類型的方法,如調用運行時類型方法報錯。 在上面的例子中:Animal a=new D
Kafka 溫故(二):Kafka的基本概念和結構
partition long 先後 導致 topic 創建 -c 標示 文件的 一.Kafka中的核心概念 Producer: 特指消息的生產者Consumer :特指消息的消費者Consumer Group :消費者組,可以並行消費Topic中partition的消息B
Kafka 溫故(四):Kafka的安裝
cal buffer 命令行 message messages 選擇 終端 做了 運行 Step 1: 下載Kafka > tar -xzf kafka_2.9.2-0.8.1.1.tgz> cd kafka_2.9.2-0.8.1.1 Step 2:
Kafka 溫故(五):Kafka的消費編程模型
mes 分享圖片 bili cto strong 配置 system lowest inter Kafka的消費模型分為兩種: 1.分區消費模型 2.分組消費模型 一.分區消費模型 二、分組消費模型 Producer : package cn.out
kafka(三):核心概念以及框架
一、核心概念 1.Message: 資料.傳遞的資料物件,主要由四部分構成:offset(偏移量)、key、value、timestamp(插入時間)。 2.Broker: 一般情況一臺伺服器一個broker,但是可以部署多個,反應到具體的程序就是Kafka程序 3.Topic:
kafka(七):訊息格式
1.kafka訊息格式: (1)一個Kafka的Message由一個固定長度的header和一個變長的訊息體body組成 (2)header部分由一個位元組的mag
kafka(六):與spark streaming對接,spark streaming接收kafka資料來源
1.功能實現 spark streaming從kafka接收資料,有兩種方式,receiver和direct兩種方式。 2.pom依賴 針對kafka_2.10-0.8.2.1版本 <!-- https
kafka(五):Topic的增刪改查操作
1.建立Topic bin/kafka-topics.sh --create --topic beifeng1 --zookeeper bigdata.ibeifeng.com:2181/kafka08 --partitions 5 --replication-factor 2
kafka(四):server.properties關鍵資訊
server.properties的其他關鍵配置:!!! 一、必須配置 1.broker.id=0 ##給定broker的id的值,在一個kafka叢集中該引數必須唯一 2.port=9092 ##監聽的埠號,預設9092,需要保證改埠沒有被使用 3.host.name=bigda
kafka(八):Kafka高可用性
1. Kafka Partition Replication 功能:增加Topic分割槽的可用性 每個Partition分為leader和follower兩部分(前提是replication factor大於1的) &nb
kafka(九):Kafka為什麼快
1. 訊息集(message set) 生產者在將訊息傳送給Kafka的時候,可以將多條訊息以前傳送,減低IO的次數 2. 二進位制傳輸 Kafka的訊息傳遞過程中,會將資料轉換為位元組陣列來進行傳遞 3. 順序讀寫磁碟
Kafka 溫故(五):Kafka的消費程式設計模型
Kafka的消費模型分為兩種: 1.分割槽消費模型 2.分組消費模型 一.分割槽消費模型 二、分組消費模型 Producer : package cn.outofmemory.kafka; import java.util.Properties; import kaf
GUI的最終選擇 Tkinter(一):Tkinter最初體驗
EasyGui就是一個簡單的文字互動介面模組,從今天開始來開始學習Tkinter Tkinter是Python標準的Gui庫,它實際是建立在Tk技術上的,Tk最初是為Tcl(一門工具名語言)所涉及的,但由於其可移植性和靈活性高,加上非常容易使用,因此它逐漸被移植到許多指令碼語言中,包括Perl、