1. 程式人生 > 其它 >dremio 幾個快取資料清理

dremio 幾個快取資料清理

dremio 大量使用了資料快取,元資料,查詢job result,加速資料快取,spill 本地磁碟快取

job result 清理

按照官方的說法是系統包含了定時任務,預設會30天自動清理,同時變動之後當手工重啟的時候會自定清理,同時不清理job 的profile 只是job result
但是目前測試似乎並不是這樣的,job 結果資料依然在我們的系統中,但是還好,一般並不是很大,而且如果使用了分散式儲存之後資料會放到s3 實現
一個共享

spill 清理

重啟或者手工都是可以的,重啟之後會自動清理,參考日誌

 
2022-05-24 07:58:57,463 [folder-cleanup-1] INFO  c.dremio.common.io.FileSystemHelper - Cleaning up /opt/dremio/data/spill/spilling_fd0425830f6f_45678/1653354250051
2022-05-24 07:58:57,464 [folder-cleanup-1] INFO  c.dremio.common.io.FileSystemHelper - Cleanup done for /opt/dremio/data/spill/spilling_fd0425830f6f_45678/1653354250051

反射資料清理

反射這部分資料實際上是會自動清理的,一般不需要太多關注,但是應該最好監控處理,如果使用了分散式儲存(s3 之類)的一般我們關注s3 bucket 空間就可以了

使用cli 清理元資料

dremio-admin 是一個比較強大的工具,可以用來清理一些元資料資訊
clean 命令

 
./dremio-admin  clean --help
Usage: dremio-admin clean [options]
  Options:
    -c, --compact
      compact kvstore
      Default: false
    -p, --delete-orphan-profiles
      delete orphans profiles in kvstore
      Default: false
    -o, --delete-orphans
      delete orphans records in kvstore (e.g. old splits)
      Default: false
    -h, --help
      show usage
    -j, --max-job-days
      delete jobs older than provided number of days
      Default: 2147483647
    -i, --reindex-data
      reindex data
      Default: false

雲端儲存快取

這部分主要是對於一些網路檔案系統的cache 處理,清理比較簡單,就是禁用快取,然後直接清理資料夾
當然這部分包含了普通檔案系統以及對於反射的加速,可以結合實際使用場景處理,這部分也可以參考我
以下的簡單介紹 https://www.cnblogs.com/rongfengliang/p/16228551.html

參考資料

https://docs.dremio.com/software/advanced-administration/job-results-cleanup/
https://docs.dremio.com/software/advanced-administration/metadata-cleanup/
https://docs.dremio.com/software/deployment/dist-store-config/
https://docs.dremio.com/software/deployment/cloud-cache-config/