大資料開發之Kafka叢集部署的具體操作流程

阿新 • • 發佈：2021-07-13

1 環境準備

1.1 叢集規劃

hadoop102 hadoop103 hadoop104

zk zk zk

kafka kafka kafka

1.2 jar包下載

http://kafka.apache.org/downloads.html

2 Kafka叢集部署

1）解壓安裝包

[atguigu@hadoop102 software]$ tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/

2）修改解壓後的檔名稱

[atguigu@hadoop102 module]$ mv kafka_2.11-0.11.0.0/ kafka

3）在/opt/module/kafka目錄下建立logs資料夾

[atguigu@hadoop102 kafka]$ mkdir logs

4）修改配置檔案

[atguigu@hadoop102 kafka]$ cd config/

[atguigu@hadoop102 config]$ vi server.properties

輸入以下內容：

#broker的全域性唯一編號，不能重複

broker.id=0

#刪除topic功能使能

delete.topic.enable=true

#處理網路請求的執行緒數量

num.network.threads=3

#用來處理磁碟IO的現成數量

num.io.threads=8

#傳送套接字的緩衝區大小

socket.send.buffer.bytes=102400

#接收套接字的緩衝區大小

socket.receive.buffer.bytes=102400

#請求套接字的緩衝區大小

socket.request.max.bytes=104857600

#kafka執行日誌存放的路徑

log.dirs=/opt/module/kafka/logs

#topic在當前broker上的分割槽個數

num.partitions=1

#用來恢復和清理data下資料的執行緒數量

num.recovery.threads.per.data.dir=1

#segment檔案保留的最長時間，超時將被刪除

log.retention.hours=168

#配置連線Zookeeper叢集地址

zookeeper.connect=hadoop102:2181,hadoop103:2181,hadoop104:2181

5）配置環境變數

[atguigu@hadoop102 module]$ sudo vi /etc/profile

#KAFKA_HOME

export KAFKA_HOME=/opt/module/kafka

export PATH=$PATH:$KAFKA_HOME/bin

[atguigu@hadoop102 module]$ source /etc/profile

6）分發安裝包

[atguigu@hadoop102 module]$ xsync kafka/

注意：分發之後記得配置其他機器的環境變數

7）分別在hadoop103和hadoop104上修改配置檔案/opt/module/kafka/config/server.properties中的broker.id=1、broker.id=2

注：broker.id不得重複

8）啟動叢集

依次在hadoop102、hadoop103、hadoop104節點上啟動kafka

[atguigu@hadoop102 kafka]$ bin/kafka-server-start.sh config/server.properties &

[atguigu@hadoop103 kafka]$ bin/kafka-server-start.sh config/server.properties &

[atguigu@hadoop104 kafka]$ bin/kafka-server-start.sh config/server.properties &

9）關閉叢集

[atguigu@hadoop102 kafka]$ bin/kafka-server-stop.sh stop

[atguigu@hadoop103 kafka]$ bin/kafka-server-stop.sh stop

[atguigu@hadoop104 kafka]$ bin/kafka-server-stop.sh stop

轉載文章連結：http://www.atguigu.com/jsfx/13762.html

大資料開發之Kafka叢集部署的具體操作流程

1 環境準備 1.1 叢集規劃 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka 1.2 jar包下載 http://kafka.apache.org/downloads.html

大資料開發之Kafka生產過程的分析

1 Kafka生產過程分析 1.1 寫入方式 producer採用推（push）模式將訊息釋出到broker，每條訊息都被追加（append）到分割槽（patition）中，屬於順序寫磁碟（順序寫磁碟效率比隨機寫記憶體要高，保障kafka吞吐率）。

大資料開發之Kafka 儲存選型

1. Kafka 的儲存難點是什麼？為什麼說儲存設計是 Kafka 的精華所在？之前這篇文章做過分析，Kafka 通過簡化訊息模型，將自己退化成了一個海量訊息的儲存系統。

大資料開發之如何處理Kafka叢集訊息積壓問題

通常情況下，企業中會採取輪詢或者隨機的方式，通過Kafka的producer向Kafka叢集生產資料，來儘可能保證Kafk分割槽之間的資料是均勻分佈的。

大資料開發之SparkCore中RDD特點

什麼是RDD RDD（Resilient Distributed Dataset）叫做彈性分散式資料集，是Spark中最基本的資料抽象。程式碼中是一個抽象類，它代表一個彈性的、不可變、可分割槽、裡面的元素可平行計算的集合。

大資料開發之Hive SQL優化思路分享

Hive的優化主要分為：配置優化、SQL語句優化、任務優化等方案。其中在開發過程中主要涉及到的可能是SQL優化這塊。

高效大資料開發之 bitmap 思想的應用

一、背景資料倉庫的資料統計，可以歸納為三類：增量類、累計類、留存類。而累計類又分為歷史至今的累計與最近一段時間內的累計(比如滾動月活躍天，滾動周活躍天，最近 N 天消費情況等)，藉助 bitmap 思想統計的模型

大資料開發之Spark SQL/Hive實用函式分享

字串函式1. concat 對字串進行拼接：concat(str1, str2, ..., strN) ，引數：str1、str2...是要進行拼接的字串。

大資料開發之Spark入門

什麼是Spark? ·大資料的電花火石。 ·Spark類似於MapReduce的低延遲的互動式計算框架。

大資料開發之資料倉庫架構分析

概述架構是資料倉庫建設的總體規劃，從整體視角描述瞭解決方案的高層模型，描述了各個子系統的功能以及關係，描述了資料從源系統到決策大資料培訓系統的資料流程。業務需求回答了要做什麼，架構就是回答怎麼做的

大資料開發之Hive解析Json陣列

在Hive中會有很多資料是用Json格式來儲存的，如開發人員對APP上的頁面進行埋點時，會將多個欄位存放在一個json陣列中，因此資料平大資料培訓臺呼叫資料時，要對埋點資料進行解析。接下來就聊聊Hive中是如何

大資料開發之Spark SQL執行效能的提升

Catalyst是Spark SQL核心優化器，早期主要基於規則的優化器RBO，後期又引入基於代價進行優化的CBO。但是在這些版本中，Spark SQL執行計劃一旦確定就不會改變。由於缺乏或者不準確的資料統計資訊（如行數、不同值的數

大資料開發之資料倉庫Hive

1．資料倉庫的基本概念資料倉庫，英文名稱為Data Warehouse，可簡寫為DW或DWH。資料倉庫的目的是構建面向分析的整合化資料環境，為企業提供決策支援（Decision Support）。它出於分析性報告和決策支援目的而建立。

大資料開發之資料倉庫Hive學習介紹

Hive是什麼? Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映成為一張資料庫表，並提供類SQL的查詢功能。可以將sql語大資料培訓句轉化為MapReduce任務進行執行。Hive提供了一系列的工具，

大資料開發之資料讀取—Pandas vs Spark

資料讀取是所有資料處理分析的第一步，而Pandas和Spark作為常用的計算框架，都對常用的資料來源讀取內建了相應介面。總體而言，大資料培訓資料讀取可分為從檔案讀取和從資料庫讀取兩大類，其中資料庫讀取包含了主

大資料開發之zookeeper的資料與儲存

一、記憶體資料 zk的資料模型是樹結構，在記憶體資料庫中，儲存了整棵樹的內容，包括所有的節點路徑、節點資料、ACL資訊，zk會定時將這個資料儲存到磁碟上

【轉】大資料開發之 Spark 面試八股文

【轉】大資料開發之 Spark 面試八股文 1. Spark 的執行流程？具體執行流程如下：

大資料學習之kafka

kafka是一個分散式的基於釋出/訂閱模式的訊息佇列，只要應用於大資料實時處理領域

kafka安裝部署及操作流程

技術標籤：大資料kafka 修改master主機名字 [[email protected] ~]$ hostname master [[email protected] ~]$ hostname slave1

大資料開發_Linux系統之centos7 搭建 _ 靜態ip的配置

Linux系統之centos7 搭建第一階段靜態ip的配置大資料環境準備：三臺電腦（虛擬機器）

大資料開發之Kafka叢集部署的具體操作流程

1 環境準備

1.1 叢集規劃

1.2 jar包下載

2 Kafka叢集部署

相關推薦