hadoop Non DFS Used是什麽
阿新 • • 發佈:2017-11-13
sort 10g fig grep strong pre 了解 它的 user 首先我們先來了解一下Non DFS User是什麽?
Non DFS User的意思是:非hadoop文件系統所使用的空間,比如說本身的linux系統使用的,或者存放的其它文件
它的計算公式:
non dfs used = configured capacity - remaining space - reserved space
如果給datanode配置了預留磁盤空間參數的話,可以用下面的公式計算
Non DFS used = ( Total Disk Space - Reserved Space) - Remaining Space - DFS Used
我們來看個例子:
如果有100G磁盤,設置dfs.datanode.du.reserved這個值為30G,在該磁盤上系統和其他文件使用了40G,
DFS使用了10GB。如果執行df -h,可以看到有效空間是50G.
在HDFS web 界面上,會看到
non dfs user=100(total)-30(reserved)-10(dfs used)-50(remaing)=10G.
所以實際上,你初始預留了30G給non dfs使用,70G給hdfs.然而,實際出來的non dfs使用超過了30G並且吃掉了屬於hdfs的10g空間。
“non dfs used”應該這樣子定義“how much configured dfs capacity are occupied by non dfs use”.
譯為:配置的dfs的空間有多少被不是hdfs的文件占用了
結論是:
如果沒有配置dfs.datanode.du.reserved,默認值是0,也就是磁盤的所以空間都給dfs,更好理解non dfs used了,就是給dfs配置的空間有多少被系統、系統進程使用了
在hadoop集群內部使用率是如此高
可用用‘lsof|grep delete’,該命令可以幫你確認哪些已經打開的文件被刪除了。有時候,hadoop的進程(例如hive/yarn/mapred/hdfs等)也會引用這些已經刪除的文件。這些引用也會占用磁盤空間。
可以用這個命令
du -hsx * | sort -rh | head -10
查看排行10的最大文件夾或是文件。
hadoop Non DFS Used是什麽