大資料實時儲存平臺構建

阿新 • • 發佈：2021-12-17

1.下載kafka安裝包並解壓

# wget https://dlcdn.apache.org/kafka/2.6.2/kafka_2.13-2.6.2.tgz
# tar -zxvf kafka_2.13-2.6.2.tgz -C /home/hadoop/app/
# ln -s /home/hadoop/app/kafka_2.13-2.6.2 /home/hadoop/app/kafka

2.修改配置檔案/home/hadoop/app/kafka/config

# cd /home/hadoop/app/kafka/config
# vim server.properties
broker.id=1
log.dirs=/home/hadoop/data/kafka/kafka-logs
zookeeper.connect=dba-01:2181,dba-02:2181,dba-03:2181,dba-04:2181,dba-05:2181/kafka
listeners=PLAINTEXT://dba-01:9092 --叢集模式必須配置，否則以後的操作會報找不到leader的錯誤


引數說明:
【broker.id】:每個broker都必須自己設定的一個唯一id，可以在0~255之間
【log.dirs】:這個極為重要，kafka的所有資料就是寫入這個目錄下的磁碟檔案中的，如果說機器上有多塊物理硬碟，那麼可以把多個目錄掛載到不同的物理硬碟上，然後這裡可以設定多個目錄，這樣kafka可以資料分散到多塊物理硬碟，多個硬碟的磁頭可以並行寫，這樣可以提升吞吐量。ps：多個目錄用英文逗號分隔
【zookeeper.connect】:連線kafka底層的zookeeper叢集的
【Listeners】:broker監聽客戶端發起請求的埠號，預設是9092
【num.network.threads】預設值為3
【num.io.threads】預設值為8,細心的朋友們應該已經發現了，這就是上一篇我們在網路架構上提到的processor和處理執行緒池的執行緒數目。所以說掌握Kafka網路架構顯得尤為重要。現在你看到這兩個引數，就知道這就是Kafka叢集效能的關鍵引數了【unclean.leader.election.enable】 預設是false，意思就是隻能選舉ISR列表裡的follower成為新的leader，1.0版本後才設為false，之前都是true，允許非ISR列表的follower選舉為新的leader
【delete.topic.enable】 預設true，允許刪除topic
【log.retention.hours】可以設定一下，要保留資料多少個小時，這個就是底層的磁碟檔案，預設保留7天的資料，根據自己的需求來就行了
【min.insync.replicas】acks=-1（一條資料必須寫入ISR裡所有副本才算成功），你寫一條資料只要寫入leader就算成功了，不需要等待同步到follower才算寫成功。但是此時如果一個follower宕機了，你寫一條資料到leader之後，leader也宕機，會導致資料的丟失。

3.配置環境變數(broker節點都要配置)

# vim ~/.bash_profile
#KAFKA_HOME 
export KAFKA_HOME=/home/hadoop/app/kafka 
export PATH=$PATH:$KAFKA_HOME/bin

#source ~/.bash_profile

4.啟動叢集

# kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties

5.關閉叢集

# kafka-server-stop.sh

6.叢集測試

# 測試生產資料
# kafka-producer-perf-test.sh --topic test-topic --num-records 500000 --record-size 200 --throughput -1 --producer-props bootstrap.servers=dba-03:9092,dba-04:9092,dba-05:9092 acks=-1
# 測試消費資料
# kafka-consumer-perf-test.sh --broker-list dba-03:9092,dba-04:9092,dba-05:9092 --fetch-size 2000 --messages 500000 --topic test-topic

6.1.生產者

6.1.1 batch.size（所處理的資料批次大小）

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 1000000 --record-size 687 --producer-props bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=5000 --throughput 30000

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 1000000 --record-size 687 --producer-props bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=10000  --throughput 30000

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 1000000 --record-size 687 --producer-props bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=20000  --throughput 30000

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 1000000 --record-size 687 --producer-props bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=40000  --throughput 30000

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 1000000 --record-size 687 --producer-props bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=60000  --throughput 30000

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 1000000 --record-size 687 --producer-props bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=80000  --throughput 30000

結論:批次越大,處理時間延遲越小。批次為5000時，吞吐能力最強，整體吞吐能力相差不大。

6.1.2 throughput（吞吐量，單位時間內處理訊息的數量）

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 10000000 --record-size 687 --producer-props  bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=40000 --throughput 100000

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 10000000 --record-size 687 --producer-props  bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=40000 --throughput 250000

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 10000000 --record-size 687 --producer-props  bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=40000 --throughput 350000

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 10000000 --record-size 687 --producer-props  bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=40000 --throughput 400000

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 10000000 --record-size 687 --producer-props  bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=40000 --throughput 500000

./bin/kafka-producer-perf-test.sh  --topic kf_perfromance_test --num-records 10000000 --record-size 687 --producer-props  bootstrap.servers=dba-01:9092,dba-02:9092,dba-03:9092 batch.size=40000 --throughput 600000

7.kafka叢集監控(待續)

大資料實時儲存平臺構建

1.下載kafka安裝包並解壓 # wget https://dlcdn.apache.org/kafka/2.6.2/kafka_2.13-2.6.2.tgz # tar -zxvf kafka_2.13-2.6.2.tgz -C /home/hadoop/app/

企業級實戰模組二：ELK+Filebeat+Kafka+ZooKeeper構建大資料日誌分析平臺案例（上）

企業級實戰模組三：ELK+Filebeat+Kafka+ZooKeeper構建大資料日誌分析平臺案例（下）

利用flume+kafka+storm+mysql構建大資料實時系統

架構圖資料流向圖 1.Flume 的一些核心概念： 2.資料流模型 Flume以agent為最小的獨立執行單位。一個agent就是一個JVM。單agent由Source、Sink和Channel三大元件構成，如下圖：

四、（專案架構的過去與現在）億級使用者行為之大資料實時分析

一、資料採集設計與要求 1、資料採集設計與要求 1）徹底跟業務系統解耦：服務端資料落盤，然後通過flume採集，最後傳送到kafka

第十五章 ETS和DETS:大資料的儲存機制

ETS和DETS都提供"鍵-值"搜尋表, 只不過ETS駐留在記憶體而DETS駐留在磁碟, 因此ETS高效但資料儲存是臨時的, DETS資料儲存是持久的且節省記憶體但比較低效。

基於Spark2.x新聞網大資料實時分析視覺化系統專案實戰

本次專案是基於企業大資料經典案例專案（大資料日誌分析），全方位、全流程講解大資料專案的業務分析、技術選型、架構設計、叢集規劃、安裝部署、整合繼承與開發和web視覺化互動設計。

Flume+Kafka+Spark Streaming實現大資料實時流式資料採集

大資料實時流式資料處理是大資料應用中最為常見的場景，與我們的生活也息息相關，以手機流量實時統計來說，它總是能夠實時的統計出使用者的使用的流量，在第一時間通知使用者流量的使用情況，並且最為人性化的為使用

python+sparkStreaming+kafka之大資料實時流

首先需要的是環境，我安裝的是spark2…1,kafka0-10,hadoop2.7,scala2.11,因為spark是Scala語言寫的，所以這個必須的安裝，大資料傳輸儲存需要用到Hadoop，HDFS，所以Hadoop需要安裝，streaming接受流資料來源有

大資料的儲存和管理

大資料的儲存和管理任何機器都會有物理上的限制：記憶體容量、硬碟容量、處理器速度等等，我們需要在這些硬體的限制和效能之間做出取捨，比如記憶體的讀取速度比硬碟快得多，因此記憶體資料庫比硬碟資料庫

中汽協釋出汽車大資料區塊鏈平臺

6 月 21 日訊息據中國汽車工業協會訊息，6 月 18 日，中國汽車工業協會在上海召開的“中國汽車論壇”上向全行業釋出汽車大資料區塊鏈平臺（簡稱 VDBP）。

大資料實時計算

本文分為四個章節介紹實時計算，第一節介紹實時計算出現的原因及概念；第二節介紹實時計算的應用場景；第三節介紹實時計算常見的架構；第四節是實時數倉解決方案。

impala + kudu | 大資料實時計算踩坑優化指南

一開始需要全量匯入kudu，這時候我們先用sqoop把關係資料庫資料匯入臨時表，再用impala從臨時表匯入kudu目標表

Splunk：大資料智慧分析平臺&全能日誌分析利器

Splunk是什麼？從功能上講，Splunk是一款功能完善、強大的機器資料(MachineData)分析平臺，涵蓋機器資料收集、索引、搜尋、監控、分析、視覺化、告警等功能。之所以說是“平臺”而不僅僅是工具，是因為Splunk經過多

大資料實時處理--架構分析

Spark是一個實時處理框架 Spark提供了兩套實施解決方案：Spark Streaming（SS）、Structured Streaming（SSS）

大資料分散式儲存之Cassandra

分散式儲存區別於集中式資料庫儲存，通過網路將海量資料儲存到企業的各個資料節點（可能分佈到不同的資料中心或機架上）；

[NewLife.XCode]實體佇列（多執行緒生產的大資料集中儲存）

NewLife.XCode是一個有15年曆史的開源資料中介軟體，支援netcore/net45/net40，由新生命團隊(2002~2020)開發完成並維護至今，以下簡稱XCode。

阿里巴巴雲原生大資料運維平臺 SREWorks 正式開源

簡介：阿里巴巴雲原生大資料運維平臺 SREWorks，沉澱了團隊近10年經過內部業務錘鍊的 SRE 工程實踐，今天正式對外開源，秉承“資料化、智慧化”運維思想，幫助運維行業更多的從業者採用“數智”思想做好高效運維。

華為大資料雲管理平臺實測

場景描述為搭建H公司車聯網業務集團級的雲管理平臺，統一管理、部署硬體資源和通用類軟體資源，實現IT應用全面服務化、雲化，CDM（Cloud Data Migration，簡稱CDM）助力H公司做到程式碼“0”改動、資料“0”丟失遷移

大資料實時處理實戰

隨著網際網路時代的發展，運營商作為內容傳送的管道服務商，在資料領域具有巨大的優勢，如何將這些資料轉化為價值，越來越被運營商所重視。

大資料實時儲存平臺構建

1.下載kafka安裝包並解壓

2.修改配置檔案/home/hadoop/app/kafka/config

3.配置環境變數(broker節點都要配置)

4.啟動叢集

5.關閉叢集

6.叢集測試

6.1.生產者

6.1.1 batch.size（所處理的資料批次大小）

6.1.2 throughput（吞吐量，單位時間內處理訊息的數量）

7.kafka叢集監控(待續)

相關推薦