Branch 向量化

阿新 • • 發佈：2021-10-24

Branch 向量化

問題發現定位

昨天晚上小夥伴告訴我有一個case的效能不太理想，讓我看看

這個查詢長這樣:

SELECT SUM(CASE WHEN LO_SUPPLYCOST + 10000 > 100000 then 1 else 0 END) FROM lineorder_flat;

lineorder_flat 這個表是標準的SSB測試資料集的寬表

看起來很簡單的一個查詢。並行度調整為1跑跑看

+-------------------------------------------------------------------+
| sum(CASE WHEN `LO_SUPPLYCOST` + 10000 > 100000 THEN 1 ELSE 0 END) |
+-------------------------------------------------------------------+
|                                                         299718458 |
+-------------------------------------------------------------------+
1 row in set (10.33 sec)

??? 咋回事，是因為作業系統page cache嗎，再試試

mysql> SELECT SUM(CASE WHEN LO_SUPPLYCOST + 10000 > 100000 then 1 else 0 END) FROM lineorder_flat;
+-------------------------------------------------------------------+
| sum(CASE WHEN `LO_SUPPLYCOST` + 10000 > 100000 THEN 1 ELSE 0 END) |
+-------------------------------------------------------------------+
|                                                         299718458 |
+-------------------------------------------------------------------+
1 row in set (10.45 sec)

好傢伙，還真就這麼慢。

顯然這個case很有問題，先看一下Profile:

          PROJECT_NODE (id=1):(Active: 10s267ms[10267379182ns], % non-child: 96.18%)
             - CommonSubExprComputeTime: 2.752ms
             - ExprComputeTime: 9s922ms
             - PeakMemoryUsage: 0.00 
             - RowsReturned: 600.037902M (600037902)
             - RowsReturnedRate: 58.441194M /sec

Profile 上面的 ExprComputeTime 是表示式執行的耗時，這個就表明了這個是 CASE WHEN 表示式執行的效率太低，可以排除SCAN和AGG的問題了

瓶頸出現在計算上那就好辦了，直接用perf看熱點程式碼在哪就行了

ps -ef|grep starrocks_be|grep stdpain|awk '{print $2}'
perf top -p $pid

很顯然，問題出在 VectorizedCaseExpr和ColumnBuilder 上面。

向量化下Case When 執行原理

為了方便理解先簡單說一下CASE WHEN的處理邏輯，當然也可以看一下這個向量化傳送門

舉個例子:

CASE WHEN col1 + 10000 > 100000 then col2 + 200 else col2 - 200 END

首先需要把所有的分支都要執行一遍

執行表示式 col1 + 10000 > 100000 選擇列為 res1
執行表示式 col2 + 200 結果列為 res2
執行表示式 col2 - 200 結果列為 res3
通過選擇列 (res1) 來選擇結果列 (res2, res3) ，作為 res4 返回

這樣上面的每一個步驟都可以進行向量化計算

優化1 - 優化不必要的分支

ColumnBuilder是構建Column的一個幫助類，可以簡化很多邏輯，看一下ColumnBuilder的程式碼是這樣的

	void append(const DatumType& value) {
        _null_column->append(DATUM_NOT_NULL);
        _column->append(value);
    }

_null_column 和 _column 這兩個成員可以認為是 std::vector<int8>

具體的呼叫是這樣的:

builder.reserve(size);
// 對於每一行來說
for (int row = 0; row < size; ++row) {
    // 先遍歷選擇列，來決定選的是哪一列
    int i = 0;
    while (i < view_size && !(when_viewers[i].value(row))) {
        i += 1;
    }
    // 插入資料
    if (!then_viewers[i].is_null(row)) {
        builder.append(then_viewers[i].value(row));
    } else {
        builder.append_null();
    }
}

這段程式碼問題很多

沒有必要的null值判斷，如果 then表示式不可能返回null，那也沒必要檢查null，另外即使then列真的可能返回null，那也不應該在迴圈中進行處理
沒有必要的迴圈套迴圈
builder呼叫append雖然看上去是沒什麼問題，而且也事先分配了空間，但是vector在呼叫append的時候還是會檢查一下是否空間足夠這樣迴圈體裡面又多了一堆 if 分支

我們先特殊優化只有一個when的情況來驗證我們的想法:

// 選擇向量
uint8_t select_vector[size];
// 先拿到選擇列
const auto& cond1_data = when_viewers[0].column() -> get_data();
// 構建選擇向量
for (int i = 0; i < size; i++) {
    select_vector[i] = cond1_data[i];
}
using ResCol = RunTimeColumnType<ResultType>;
auto res = ResCol::create();
// 先把常量展開成向量，後面再優化
auto then_0 = ColumnHelper::unpack_and_duplicate_const_column(size, then_columns[0]);
auto then_1 = ColumnHelper::unpack_and_duplicate_const_column(size, then_columns[1]);
auto& then0_data = ((ResCol*)then_0.get()) -> get_data();
auto& then1_data = ((ResCol*)then_1.get()) -> get_data();
auto& res_data = res -> get_data();
res_data.resize(size);
// 通過選擇向量來選擇
for(int i = 0;i < size; ++i) {
    res_data[i] = select_vector[i] ? then0_data[i]: then1_data[i];
}

跑一下看看

mysql> SELECT SUM(CASE WHEN LO_SUPPLYCOST + 10000 > 100000 then 1 else 0 END) FROM lineorder_flat;
+-------------------------------------------------------------------+
| sum(CASE WHEN `LO_SUPPLYCOST` + 10000 > 100000 THEN 1 ELSE 0 END) |
+-------------------------------------------------------------------+
|                                                         299718458 |
+-------------------------------------------------------------------+
1 row in set (4.26 sec)

果然，很有效果提升了一倍但是很多人會說 "我不滿意" (手工滑稽)

優化2 - SIMD

那就繼續看profile了

呃呃呃，上面顯示大頭還是VectorizedCaseExpr，看下具體熱點

我直接 ??? 這麼簡單的一個迴圈居然沒自動向量化?

for(int i = 0;i < size; ++i) {
    res_data[i] = select_vector[i] ? then0_data[i]: then1_data[i];
}

一頓操作之後(各種hint restrict)發現自動擋還是不行，所以還是手動擋吧

inline void avx2_select_if(uint8_t*& selector, char*& dst, const char*& a, const char*& b, int size) {
    const char* dst_end = dst + size;
    while (dst + 32 < dst_end) {
        __m256i loaded_mask = _mm256_loadu_si256(reinterpret_cast<__m256i*>(selector));
        loaded_mask = _mm256_cmpgt_epi8(loaded_mask,  _mm256_setzero_si256());
        __m256i loaded_a = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(a));
        __m256i loaded_b = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(b));
        __m256i res = _mm256_blendv_epi8(loaded_b, loaded_a, loaded_mask);
        _mm256_storeu_si256(reinterpret_cast<__m256i*>(dst), res);
        dst += 32;
        selector += 32;
        a += 32;
        b += 32;
    }
}

template <PrimitiveType TYPE, typename Container = typename RunTimeColumnType<TYPE>::Container>
void select_if(uint8_t* select_vector, Container& dst, const Container& a, const Container& b) {
    int size = dst.size();
    auto* start_dst = dst.data();
    auto* end_dst = dst.data() + size;

    auto* start_a = a.data();
    auto* start_b = b.data();

    if constexpr (std::is_same_v<RunTimeCppType<TYPE>, int8_t>) {
        avx2_select_if(select_vector, start_dst, start_a, start_b, size);
    }

    while (start_dst < end_dst) {
        *start_dst = *select_vector ? *start_a : *start_b;
        select_vector++;
        start_dst++;
        start_a++;
        start_b++;
    }
}

測試結果: 比較符合預期，證明思路沒問題

mysql> SELECT SUM(CASE WHEN LO_SUPPLYCOST + 10000 > 100000 then 1 else 0 END) FROM lineorder_flat;
+-------------------------------------------------------------------+
| sum(CASE WHEN `LO_SUPPLYCOST` + 10000 > 100000 THEN 1 ELSE 0 END) |
+-------------------------------------------------------------------+
|                                                         299718458 |
+-------------------------------------------------------------------+
1 row in set (1.69 sec)

Branch 向量化

Branch 向量化問題發現定位昨天晚上小夥伴告訴我有一個case的效能不太理想，讓我看看

ArrayFire---向量化陣列(2)

　　在程式設計中我們經常會合並某個矩陣，通常我們會使用迴圈來實現，然而迴圈有時候會降低程式執行的效率，

Eigen 向量化加速，對其導致崩潰問題 2. 原因分析

部落格轉自：從Eigen向量化談記憶體對齊 Eigen是一個非常常用的矩陣運算庫，至少對於SLAM的研究者來說不可或缺。然而，有時候會由於Eigen向量化的記憶體對齊問題使程式執行異常。

文字挖掘預處理之分詞 / 向量化 / TF-IDF / Hash trick 附程式碼 Demo

分詞(tokenizing) 對於一個句子，首先需要將其分為多個單詞或多個片語。例如， “I come from New York" => "I/come from/New York"

向量量化的C語言實現_numba從入門到精通（5）—強大的向量化vectorize和guvectorize...

技術標籤：向量量化的C語言實現（jit和vectorize的引數總結在第6章裡會寫）在機器學習的程式設計過程中，經常會涉及到很多複雜的迴圈，往往程式中最消耗時間的也是這部分程式碼，好在後來提出了向量化的概念

向量化、Python 中的廣播、python _ numpy 向量的說明

1向量化向量化是非常基礎的去除程式碼中 for 迴圈的藝術，減少執行時間，在python中使用np.dot()進行向量化。

這就是TDSQL的向量化執行引擎？有效降低函式呼叫開銷，提升CPU利用率

在“國產資料庫硬核技術沙龍-TDSQL-A技術揭祕”系列分享中，5位騰訊雲技術大咖分別從整體技術架構、列式儲存及相關執行優化、叢集資料互動匯流排、Fragment執行框架/查詢分片策略/子查詢框架以及向量化執行引擎等多

高階程式設計--編寫有效的程式碼（有效的資料輸入、向量化、並行化）

高階程式設計--編寫有效的程式碼在程式設計師中間流傳著一句話：“優秀的程式設計師是花一個小時來除錯程式碼而使得它的運算速度提高一秒的人。”R是一種鮮活的語言，大多數使用者不用擔心寫不出高效的程式碼。作為

ArcGIS 柵格ArcScan向量化使用不了柵格清理問題

這裡要解決的問題是，柵格已經二值化了（符號顯示，選擇已分類，分為兩級即可），當使用柵格清理，擦除柵格的時候，發現擦了之後，柵格又變回原樣。

Numpy通用函式及向量化計算

Python（Cpython)對於較大陣列的迴圈操作會比較慢，因為Python的動態性和解釋性，在做每次迴圈時，必須做資料型別的檢查和函式的排程。

兩種向量化執行引擎思路

向量化執行引擎在三種常見的資料庫查詢引擎執行模型中我們講到了向量化執行引擎本質上是一種批處理模型。批處理思想在計算機的世界裡經常閃閃發光。高併發場景中，可以把大量的請求合併，改為呼叫批量介面；大資料下

《戴森球計劃》新手向電磁矩陣量化教學

《戴森球計劃》中電磁矩陣是用於科研的矩陣，也是解鎖的最早的矩陣，很多新人玩家不知道怎麼佈置一條量化產線，下面請看“2u幹啥啥不行”分享的《戴森球計劃》新手向電磁矩陣量化教學，希望能夠幫助大家。

向您圖文並茂生動講解Spring AOP 原始碼（1）

前言在Spring AOP - 註解方式使用介紹（長文詳解）中，作者介紹了Spring AOP 註解方式的使用方式。算是給咱們的Spring AOP 原始碼分析開了個頭，做了一點知識點的鋪墊。

向您生動地講解Spring AOP 原始碼（3）

前言往期文章： Spring IoC - Spring IoC 的設計 Spring IoC - IoC 容器初始化原始碼解析

一網打盡JanusGraph"出邊入邊無向邊雙向邊"

起因參考我之前建立圖資料表的操作，要給“劉備”和“關羽”新增【兄弟】關係，要分別輸入劉備有個兄弟叫關羽，關羽有個兄弟叫劉備，神煩！

Python量化交易基礎講堂-Python時間模組大全之time

《Python實戰-構建基於股票的量化交易系統》小冊子，雖然主要側重於 Python 實戰講解，但在內容設計上提供了前置基礎章節幫助讀者快速掌握基礎工具的使用，因此小冊適合的人群僅具備Python最基礎程式設計經驗即可。

Python量化交易基礎講堂-用Pandas庫處理時間序列

Python量化交易進階講堂-股票分筆資料跨週期處理

《Python實戰-構建基於股票的量化交易系統》小冊子主要側重於 Python 實戰講解，但在內容設計上提供了前置基礎章節幫助讀者快速掌握基礎工具的使用。同時我們會持續更新一些關於Python和量化相關擴充套件文章，幫助大

Python量化交易基礎講堂-try_except異常處理機制

基於Java向zip壓縮包追加檔案

這篇文章主要介紹了基於Java向zip壓縮包追加檔案,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Branch 向量化

Branch 向量化

問題發現定位

向量化下Case When 執行原理

優化1 - 優化不必要的分支

優化2 - SIMD

相關推薦