Druid 大數據分析之快速應用(單機模式)
阿新 • • 發佈:2018-01-30
uid druid 控制臺 config html static 數據存儲 指定時間 get
1、概述
本節快速安裝基於單機服務器,很多配置可以默認不需要修改,數據存儲在操作系統級別的磁盤。推出快速安裝的目的,便於了解並指導基於Druid進行大數據分析的開發流程。本節主要講Druid的安裝、實例數據加載、查詢及使用問題解決。
2. Linux, Mac OS X, or other Unix-like OS (Windows不支持)
3. VMware
4. 2CPU ++; 內存2G ++
Linux代碼
1. 啟動Zookeeper
2. 切換到Druid根目錄,執行 bin/init
1. 訪問http://localhost:8090/console.html 可以查看數據批量導入Druid的任務執情況,間隔一段時間刷新一下控制臺,如果看到SUCCESS任務狀態,說明任務執行成功,如下圖所示:
2. 訪問http://localhost:8081/ 查看任完成進度、數據分片情況、索引創建等
Linux環境下加載數據文件,執行方式如下:
2. 時間序列值:Druid按時間進序列值進行數據分片,按時間字段進行數據分片的字段值需要標準化(UTC)處理。
3. 任務掛起或等待:Druid將任務提交給Hadoop中的Map-Reduce執行,導入時任務可會因為某種原因導致任務掛起或停止。
2. 數據導入接口對應Indexing,默認8090端口 http://<OVERLORD_IP>:<port>/druid/indexer/v1/task
2、安裝要求 1. Java 7 及以上
2. Linux, Mac OS X, or other Unix-like OS (Windows不支持)
3. VMware
4. 2CPU ++; 內存2G ++
3、Zookeeper 安裝 本次采單機版安裝,如果采用分布式安裝,則需要修改Druid相應配置,反之不需要。 Zookeeper默認啟用2181端口監聽。
- curl http://www.gtlib.gatech.edu/pub/apache/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz -o zookeeper-3.4.6.tar.gz
- tar -xzf zookeeper-3.4.6.tar.gz
- cd zookeeper-3.4.6
- cp conf/zoo_sample.cfg conf/zoo.cfg
- ./bin/zkServer.sh start
zookeeper 安裝驗證
Linux和zookeeper命令代碼- cd zookeeper-3.4.6 // 切換至Zookeeper根目錄
- bin/zkCli.sh // 啟動Zookeeper客戶端
- ls / // 查看根節點
- curl -O http://static.druid.io/artifacts/releases/druid-0.9.1.1-bin.tar.gz
- tar -xzf druid-0.9.1.1-bin.tar.gz
- cd druid-0.9.1.1
解壓後 Druid 相關目錄說明
LICENSE
- 許可證文件。bin/
- 快速啟動腳本。conf/*
- 集群安裝配置(包括Hadoop)。conf-quickstart/*
extensions/*
- Druid擴展。hadoop-dependencies/*
- Druid hadoop依賴。lib/*
- Druid核心軟件包。quickstart/*
- 快速啟動示例文件及數據。
5、啟動 Druid 準備 啟動Druid相關服務之前,我們需要做兩件事:
1. 啟動Zookeeper
2. 切換到Druid根目錄,執行 bin/init
6、啟動 Druid 相關服務 啟動5個Druid進程在不同遠程終端窗口,因為是單機模式,所有進程在同一服務器上;在大的分布式集群中,很多Druid進程可以在同一服務器,我們需要啟動的5個Druid進程:Historical、Broker、coordinator、overlord、middleManager。overlord與middleManager對應Indexer節點,節點相關介紹請查看《http://yangyangmyself.iteye.com/blog/2320502》,後續將會詳細介紹節點工作機制。
切換至Druid安裝目錄,在不同遠程終端窗口依次執行以命令
Java代碼- java `cat conf-quickstart/druid/historical/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/historical:lib/*" io.druid.cli.Main server historical
- java `cat conf-quickstart/druid/broker/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/broker:lib/*" io.druid.cli.Main server broker
- java `cat conf-quickstart/druid/coordinator/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/coordinator:lib/*" io.druid.cli.Main server coordinator
- java `cat conf-quickstart/druid/overlord/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/overlord:lib/*" io.druid.cli.Main server overlord
- java `cat conf-quickstart/druid/middleManager/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/middleManager:lib/*" io.druid.cli.Main server middleManager
Druid 控制臺 如果上述服務啟動成功,則可以訪問如下控制臺
1. 訪問http://localhost:8090/console.html 可以查看數據批量導入Druid的任務執情況,間隔一段時間刷新一下控制臺,如果看到SUCCESS任務狀態,說明任務執行成功,如下圖所示:
2. 訪問http://localhost:8081/ 查看任完成進度、數據分片情況、索引創建等
7、Druid 加文件數據 以上Druid相關服務啟動後,我們需要加載相關業務數據到Druid,Druid根據數據加載的配置文件,將我們的原始業務數據做相應的預處理後進行存儲,以便後續查詢統計。數據加載有兩種方式:一是實時加載;二、加載批文件,本節講如何加載Json批數據文件。
Linux環境下加載數據文件,執行方式如下:
Pass.json代碼
- {"gcxh":"430000002745468976","license":"測AZ6LUL","licenseType":"02","hpys":"5","csys":null,"cllx":"0","clpp":null,"gateId":"430186000347","fxlx":"8","cdbh":"1","passTime":"2016-07-03T20:23:17.000Z","carPassDate":"2016-07-04","carPassTime":"04:23:17","carLoc":"測A","province":"43","city":"4301","region":"430186"}
- {
- "type" : "index_hadoop",
- "spec" : {
- "ioConfig" : {
- "type" : "hadoop",
- "inputSpec" : {
- "type" : "static",
- "paths" : "/opt/data/pass.json" /**指定數據*/
- }
- },
- "dataSchema" : {
- "dataSource" : "kakou", /**數據源名,類似表名*/
- "granularitySpec" : {
- "type" : "uniform",
- "segmentGranularity" : "day", /**數據分片粒度,按天*/
- "queryGranularity" : "none",
- "intervals" : ["2016-07-04/2016-07-05"] /**時間跨度*/
- },
- "parser" : {
- "type" : "string",
- "parseSpec" : {
- "format" : "json", /**數據文件類型*/
- "dimensionsSpec" : {
- "dimensions" : [ /**數據列*/
- "license",
- "carLoc",
- "licenseType",
- "hpys",
- "cllx",
- "clpp",
- "gateId",
- "fxlx",
- "passTime",
- "carPassDate",
- "carPassTime",
- "province",
- "city",
- "region"
- ]
- },
- "timestampSpec" : {
- "format" : "auto",
- "column" : "passTime" /**指定時間分段*/
- }
- }
- },
- "metricsSpec" : [
- {
- "name" : "count",
- "type" : "count" /**按count聚合*/
- }
- ]
- },
- "tuningConfig" : {
- "type" : "hadoop",
- "partitionsSpec" : {
- "type" : "hashed",
- "targetPartitionSize" : 5000000
- },
- "maxRowsInMemory":500000,
- "jobProperties" : {}
- }
- }
- }
Java代碼
- /**執行如下命令進行導入操作*/
- curl -X ‘POST‘ -H ‘Content-Type:application/json‘ -d @/opt/data/pass-index.json 192.168.121.200:8090/druid/indexer/v1/task
2. 時間序列值:Druid按時間進序列值進行數據分片,按時間字段進行數據分片的字段值需要標準化(UTC)處理。
3. 任務掛起或等待:Druid將任務提交給Hadoop中的Map-Reduce執行,導入時任務可會因為某種原因導致任務掛起或停止。
中文亂碼解決辦法:
編碼代碼- try{
- OutputStream out = new FileOutputStream(new File("E:\\study\\druid\\rpass_20150801.json"),true);
- Writer write = new OutputStreamWriter(out,"utf-8");
- write.write(json.toString()+"\n");
- write.flush();
- write.close();
- out.close();
- }catch(){
- e.printStackTrace();
- }
時間序列值UTC標準化:
Java代碼- /**引用Joda類庫*/
- DateTimeFormatter dtFormatter=DateTimeFormat.forPattern("yyyy-MM-dd hh:mm:ss");
- /**輸出結果 2016-08-29T22:58:20.000Z*/
- String result = dtFormatter.parseDateTime(‘2016-08-29 22:58:20‘).withZone(DateTimeZone.UTC).toString();
任務掛起或停止解決辦法:可以通過下述命將掛起任務刪除,重新執行導入。
Java代碼- /**taskId可以從控制臺獲取或在執行Curl導入命令時返回值*/
- http://<OVERLORD_IP>:<port>/druid/indexer/v1/task/{taskId}/shutdown
2. 數據導入接口對應Indexing,默認8090端口 http://<OVERLORD_IP>:<port>/druid/indexer/v1/task
Druid 大數據分析之快速應用(單機模式)