【TPC-H】工具安裝與生成資料
阿新 • • 發佈:2022-05-12
1. 安裝TPC-H工具
- 安裝 git
apt install git
- 安裝gcc
apt install gcc
- 下載 TPC-H 資料生成程式碼
在伺服器上自己手動建立目錄:/root/tpcH/tools/。再此目錄下執行如下指令碼
git clone https://github.com/gregrahn/tpch-kit.git
- 進入資料生成工具程式碼目錄
cd tpch-kit/dbgen
- 編譯資料生成工具程式碼
若未安裝make,執行 apt install make
make
2. 生成資料
- 編譯成功後,您可以使用如下程式碼檢視程式碼生成工具的相關引數。
./dbgen --help
- 本次測試僅生成 1 GB 資料,所以執行如下程式碼生成資料。
./dbgen -vf -s 1
如您需要生成更多資料量的資料,可以調整 SF 的引數,例如您可以使用如下程式碼生成 1 T 資料
./dbgen -vf -s 1000
- 資料生成後,您可以使用如下程式碼檢視生成的檔案。可以看到生成工具生成了 8 個數據檔案,每個資料檔案都對應一張資料集中的表。
ls | grep '.*.tbl'
注意:tpc-h在生成資料時,不能指定生成的資料存放到某個資料夾,因此需要手動去移動xxx.tbl到自己想要的檔案下
3、將資料移動到其他檔案下
#建立data,存放生成的資料mkdir -p /root/tpcH/data
#將生成的資料,移動到建立的data下 mv /root/tpcH/tools/tpch-kit/dbgen/*.tbl /root/tpcH/data/