dremio 幾個快取資料清理
dremio 大量使用了資料快取,元資料,查詢job result,加速資料快取,spill 本地磁碟快取
job result 清理
按照官方的說法是系統包含了定時任務,預設會30天自動清理,同時變動之後當手工重啟的時候會自定清理,同時不清理job 的profile 只是job result
但是目前測試似乎並不是這樣的,job 結果資料依然在我們的系統中,但是還好,一般並不是很大,而且如果使用了分散式儲存之後資料會放到s3 實現
一個共享
spill 清理
重啟或者手工都是可以的,重啟之後會自動清理,參考日誌
2022-05-24 07:58:57,463 [folder-cleanup-1] INFO c.dremio.common.io.FileSystemHelper - Cleaning up /opt/dremio/data/spill/spilling_fd0425830f6f_45678/1653354250051
2022-05-24 07:58:57,464 [folder-cleanup-1] INFO c.dremio.common.io.FileSystemHelper - Cleanup done for /opt/dremio/data/spill/spilling_fd0425830f6f_45678/1653354250051
反射資料清理
反射這部分資料實際上是會自動清理的,一般不需要太多關注,但是應該最好監控處理,如果使用了分散式儲存(s3 之類)的一般我們關注s3 bucket 空間就可以了
使用cli 清理元資料
dremio-admin 是一個比較強大的工具,可以用來清理一些元資料資訊
clean 命令
./dremio-admin clean --help
Usage: dremio-admin clean [options]
Options:
-c, --compact
compact kvstore
Default: false
-p, --delete-orphan-profiles
delete orphans profiles in kvstore
Default: false
-o, --delete-orphans
delete orphans records in kvstore (e.g. old splits)
Default: false
-h, --help
show usage
-j, --max-job-days
delete jobs older than provided number of days
Default: 2147483647
-i, --reindex-data
reindex data
Default: false
雲端儲存快取
這部分主要是對於一些網路檔案系統的cache 處理,清理比較簡單,就是禁用快取,然後直接清理資料夾
當然這部分包含了普通檔案系統以及對於反射的加速,可以結合實際使用場景處理,這部分也可以參考我
以下的簡單介紹 https://www.cnblogs.com/rongfengliang/p/16228551.html
參考資料
https://docs.dremio.com/software/advanced-administration/job-results-cleanup/
https://docs.dremio.com/software/advanced-administration/metadata-cleanup/
https://docs.dremio.com/software/deployment/dist-store-config/
https://docs.dremio.com/software/deployment/cloud-cache-config/