【實時數倉】Day05-ClickHouse

阿新 • • 發佈：2022-01-10

一、ClickHouse入門

1、介紹

是一個開源的列式儲存資料庫（DBMS）

使用C++編寫

用於線上分析查詢（OLAP）

能夠使用SQL查詢實時生成分析資料報告

2、特點

（1）列式儲存

比較：

行式儲存適用於查詢某條記錄的資訊

列式儲存適用於查詢所有人的資訊

好處：

聚合、計數、求和等統計操作優

同列資料型別易選擇更優的壓縮演算法，提高了壓縮比重

節省儲存空間並利於快取

（2）DBMS的功能

標準SQL大部分語法，DDM、DML、函式、使用者管理、許可權管理、資料備份與恢復

（3）引擎多樣化

根據需求可以選擇不同的引擎，例如合併樹、日誌、介面和其他四大類共二十多種引擎。

（4）高吞吐寫入能力

採用類似LSM Tree的結構，資料寫入後語在後臺壓縮

匯入時資料append寫，壓縮時也是順序寫回磁碟

順序寫充分利用了磁碟吞吐能力

能夠達到相當於 50W-200W 條/s 的寫入速度

（5）資料分割槽與執行緒級並行

劃分為多個partition，partition又被分為多個index索引粒度，多個核心各處理一部分實現並行處理

單條查詢就能充分利用所有CPU

但不適合多條查詢，不適用於高qps的查詢業務

二、ClickHouse的安裝

1、準備工作

關閉防火牆

取消開啟檔案數限制

同步操作

安裝依賴

取消SELINUX（偽檔案系統，是一個許可權白名單原則）

2、單機安裝

建立目錄

同步安裝檔案

安裝所有的rpm檔案：sudo rpm -ivh *.rpm |sudo rpm -qa|grep clickhouse

修改配置檔案中的listen_host，讓其他伺服器訪問，並分發配置檔案

啟動server：systemctl start clickhouse-server

關閉開機自啟：systemctl disable clickhouse-server

client連線：clickhouse-client -m

三、資料型別

1、整型

Int8、16、32、64

UInt8、16、32、64

場景：個數、數量、id

2、浮點型

Float32、64

計算時會引起四捨五入誤差

場景：資料值小、不涉及統計運算、精度要求不高

3、布林型

無專門型別，可以使用UInt8，取值為0/1

4、Decimal型別

可以保持精度的有符號浮點數

Decimal32(s)、64、128

s表示小數位數

場景：金額、利率等需要保證小數點精度的場景

5、字串

String：任意長度字串

FixString(N)：固定長度字串，小於n會在末尾新增空位元組，較少使用

場景：名稱、文字描述

6、列舉型別

Enum8 和 Enum16

Enum8使用'String' = Int8對描述

例如建立一個列舉Enum8('hello' = 1, 'world' = 2) 型別的列

CREATE TABLE t_enum
(
 x Enum8('hello' = 1, 'world' = 2)
)
ENGINE = TinyLog;

只能儲存hello或world

插入元素：INSERT INTO t_enum VALUES ('hello'), ('world'), ('hello');

轉換整形查詢：SELECT CAST(x, 'Int8') FROM t_enum;

場景：對於狀態欄位是一種空間優化+資料約束

會存在維護成本或資料丟失的問題

7、時間型別

Date：年月日　　

Datetime：年月日時分秒

Datetime64：年月日時分秒亞秒，如20:50:10.66

8、陣列Array(T)

不推薦多維陣列

建立方式1-使用 array 函式：SELECT array(1, 2) AS x, toTypeName(x) ;

建立方式2-使用方括號：SELECT [1, 2] AS x, toTypeName(x);

四、表引擎

1、表引擎的概念

建立表時顯式宣告，名稱區分大小寫

決定如何儲存表的資料，包括

儲存方式和位置、在哪寫，在哪讀

如何支援哪些查詢

併發資料訪問

索引的使用

是否支援多執行緒

資料複製引數

2、TinyLog

3、Memory

4、MergeTree

5、ReplacingMergeTree

6、SummingMergeTree

五、SQL操作

六、副本

七、分片叢集

本文來自部落格園，作者：哥們要飛，轉載請註明原文連結：https://www.cnblogs.com/liujinhui/p/15783759.html

【實時數倉】Day05-ClickHouse

一、ClickHouse入門 1、介紹是一個開源的列式儲存資料庫（DBMS）使用C++編寫用於線上分析查詢（OLAP）

【實時數倉】Day04-DWS層業務實現：

一、DWS層與DWM設計 1、思路之前已經進行分流但只需要一些指標進行實時計算，將這些指標以主題寬表的形式輸出

【實時數倉】Day06-資料視覺化介面：

一、資料視覺化介面介紹 1、設計思路後把輕度聚合的結果儲存到 ClickHouse 中後，提供即時的查詢、統計、分析

基於 EMR OLAP 的開源實時數倉解決方案之 ClickHouse 事務實現

簡介：阿里雲 EMR OLAP 與 Flink 團隊深度合作，支援了 Flink 到 ClickHouse 的 Exactly-Once寫入來保證整個實時數倉資料的準確性。本文介紹了基於 EMR OLAP 的開源實時數倉解決方案。

基於 Flink 的實時數倉生產實踐

資料倉庫的建設是“資料智慧”必不可少的一環，也是大規模資料應用中必然面臨的挑戰。在智慧商業中，資料的結果代表了使用者反饋、獲取資料的及時性尤為重要。快速獲取資料反饋能夠幫助公司更快地做出決策，更好地進

專案實戰從0到1之離線和實時數倉體系（29）

一什麼是資料倉庫 1.1資料倉庫概念資料倉庫，英文名稱為Data Warehouse，可簡寫為DW或DWH。資料倉庫，是為企業所有級別的決策制定過程，提供所有型別資料支援的戰略集合。它出於分析性報告和決策支援目的而建

實時數倉、基於Flink1.11的SQL構建實時數倉之搭建hadoop HA叢集

目錄 hadoop3.2.1 叢集安裝一：準備環境： 1.配置Java環境 [root@m1 ~]# java -version java version \"1.8.0_261\" Java(TM) SE Runtime Environment (build 1.8.0_261-b12) Java

【實操系列】| Python傳送郵件的一個具體應用

技術標籤：教程python技能python程式語言效率歡迎關注微信公眾號“Python小灶，和我一起每天學習Python新知識”

實時數倉入門訓練營：實時計算 Flink 版 SQL 實踐

簡介：《實時數倉入門訓練營》由阿里雲研究員王峰、阿里雲資深技術專家金曉軍、阿里雲高階產品專家劉一鳴等實時計算 Flink 版和 Hologres 的多名技術/產品一線專家齊上陣，合力搭建此次訓練營的課程體系，精心打磨課

基於Flink構建全場景實時數倉

目錄：一. 實時計算初期二. 實時數倉建設三. Lambda架構的實時數倉四. Kappa架構的實時數倉

Filnk實時數倉（資料採集）

第1章電商實時數倉介紹 1.1普通實時計算與實時數倉比較　　普通的實時計算優先考慮時效性，所以從資料來源採集經過實時計算直接得到結果。如此做時效性更好，但是弊端是由於計算過程中的中間結果沒有沉澱下來，所以

實時數倉系統構建

背景介紹當前的資料報表服務採用定時離計算的方式構建數倉，但隨著業務對實時性的要求變高，需要實現一套實時入庫方案。

美團外賣實時數倉建設實踐

本文主要介紹一種通用的實時數倉構建的方法與實踐。實時數倉以端到端低延遲、SQL標準化、快速響應變化、資料統一為目標。美團外賣資料智慧組總結的最佳實踐是：一個通用的實時生產平臺跟一個通用互動式實時分析引擎

美團點評基於 Flink 的實時數倉建設實踐

引言近些年，企業對資料服務實時化服務需求日益增多。本文整理了常見實時資料元件的效能特點和適用場景，介紹了美團如何通過 Flink 引擎構建實時資料倉庫，從而提供高效、穩健的實時資料服務。此前我們美團技術部落

【實操分享】快手和微博如何開通直播賣貨功能？

公司主營海外輔助生殖業務（試管、女性凍卵、三方助孕），因今年受大環境影響，先是國內，現在又是國外，所以業務短期內很難開展，所以臨時增添了新專案——海外本土護膚品，而推廣渠道首選了目前最火的直播帶貨。

技術揭祕：從雙11看實時數倉Hologres高可用設計與實踐

簡介：本文將會從阿里巴巴雙11場景出發，分析實時數倉面臨的高可用挑戰以及針對性設計。

實時數倉Hologres首次走進阿里淘特雙11

簡介：這是淘特在阿里巴巴參與的第二個雙11大促，大促期間累計超過上千萬消費者在此買到心儀的商品，數百萬家商家因為淘特而變得不同，未來，淘特也將會繼續更好的服務於下沉市場，讓惠民走近千萬家。

5個網際網路大廠實時數倉建設例項，例例皆經典

一、實時數倉建設背景 1. 實時需求日趨迫切目前各大公司的產品需求和內部決策對於資料實時性的要求越來越迫切，需要實時數倉的能力來賦能。傳統離線數倉的資料時效性是 T+1，排程頻率以天為單位，無法支撐實時場景的

美團外賣實時數倉方案整理

實時數倉以端到端低延遲、SQL標準化、快速響應變化、資料統一為目標。美團外賣資料智慧組總結的最佳實踐是：一個通用的實時生產平臺跟一個通用互動式實時分析引擎相互配合，同時滿足實時和準實時業務場景。兩者合理分

離線+實時數倉建設方案

大綱一、數倉基本概念 1、資料倉庫架構我們在談數倉之前，為了讓大家有直觀的認識，先來談數倉架構，“架構”是什麼？這個問題從來就沒有一個準確的答案。這裡我們引用一段話：在軟體行業，一種被普

【實時數倉】Day05-ClickHouse

相關推薦