1. 程式人生 > 其它 >【TPC-H】工具安裝與生成資料

【TPC-H】工具安裝與生成資料

1. 安裝TPC-H工具

  • 安裝 git
apt install git
  • 安裝gcc
apt install gcc
  • 下載 TPC-H 資料生成程式碼

在伺服器上自己手動建立目錄:/root/tpcH/tools/。再此目錄下執行如下指令碼

git clone https://github.com/gregrahn/tpch-kit.git
  • 進入資料生成工具程式碼目錄
cd tpch-kit/dbgen
  • 編譯資料生成工具程式碼

若未安裝make,執行 apt install make

make

2. 生成資料

  • 編譯成功後,您可以使用如下程式碼檢視程式碼生成工具的相關引數。
./dbgen --help
  • 本次測試僅生成 1 GB 資料,所以執行如下程式碼生成資料。
./dbgen -vf -s 1
如您需要生成更多資料量的資料,可以調整 SF 的引數,例如您可以使用如下程式碼生成 1 T 資料
./dbgen -vf -s 1000
  • 資料生成後,您可以使用如下程式碼檢視生成的檔案。可以看到生成工具生成了 8 個數據檔案,每個資料檔案都對應一張資料集中的表。
ls | grep '.*.tbl'

注意:tpc-h在生成資料時,不能指定生成的資料存放到某個資料夾,因此需要手動去移動xxx.tbl到自己想要的檔案下

3、將資料移動到其他檔案下

#建立data,存放生成的資料
mkdir -p /root/tpcH/data
#將生成的資料,移動到建立的data下
mv /root/tpcH/tools/tpch-kit/dbgen/*.tbl /root/tpcH/data/