HDFS中Non DFS Used使用過大

阿新 • • 發佈：2018-12-21

問題描述：

在namenode頁面發現，好多主機的Non DFS Used使用非常大，大大減少了HDFS磁碟剩餘可用容量，存在異常

通常，Non DFS Used = 配置的容量 - 剩餘容量 - DFS使用容量

而配置容量 = 總容量 - 預留空間（總容量為磁碟的總大小，預留空間為預設的5%）

所以，Non DFS used=（總容量-預留空間）- 剩餘容量 - DFS使用容量

也可以通俗的說，"Non DFS used" 就是代表"配置的dfs空間有多少空間是被非hdfs檔案佔用了的"

造成Non DFS Used使用過大，可能產生的原因是：

因為叢集裡啟動了historyserver,這個程序在刪除了臨時檔案之後,並沒有釋放檔案控制代碼,所以導致Non DFS Used 數值很大,而用df和du檢視的時候,磁碟空間並未被佔用。這個與版本也有一定的關係，在後期的新版本中，這個問題就比較少。

解決方法：

方法一：重啟存在問題節點上的datanode服務

方法二：重啟整個HDFS服務

方法三：重啟JobHistory服務

具體關於主機磁碟總容量與HDFS分配的容量對比與關係見下圖：

主機上的磁碟容量：40.6TB

每塊盤的總大小為：4000G

每塊盤可用的磁碟空間是：3.7T

HDFS中的配置：

HDFS系統預留引數：10G

NameNode頁面上的顯示：39.83TB

發現：NameNode頁面上顯示的39.83TB，與磁碟總共的40.6TB，差距了0.77TB，約等於800G。至於這800G去哪兒了，還有待以後觀察。如果有大神知道，希望指點一下。

注意點：

（1）其實NonDFSUsed預設包含了那檔案系統預留的5%空間

（2）可以協助排查問題的命令

lsof | grep delete //識別已被刪除的檔案,因為Hadoop流程(像hive, yarn, and mapred and hdfs)可能會引用那些已經被刪除的檔案，而這些引用將佔用磁碟空間。

du -hsx * | sort -rh | head -10 //查詢佔用空間最大的前10個檔案

（3）Non DFS Used的計算方法

配置容量 = 總容量 - 預留空間（總容量為磁碟的總大小，預留空間為預設的5%）

Non DFS Used = 配置的容量 - 剩餘容量 - DFS使用容量

Non DFS used=（總容量-預留空間）- 剩餘容量 - DFS使用容量

（4）磁碟系統預留的空間，可以通過df -h檢視，計算方法為：

Used+Available，看是否等於Size,如果相等，可能沒有預留，或者預留的特別少，幾乎忽略不計。如果有，則可以通過差值/Size，得出具體的預留比例。

參考網址：

https://blog.csdn.net/levy_cui/article/details/53199360

https://blog.csdn.net/u014297175/article/details/48679321

HDFS中Non DFS Used使用過大

問題描述：在namenode頁面發現，好多主機的Non DFS Used使用非常大，大大減少了HDFS磁碟剩餘可用容量，存在異常通常，Non DFS Used = 配置的容量 - 剩餘容量 - DFS使用容量而配置容量 = 總容量 - 預留空間（總容量為磁碟的總大小，預

關於hadoop hdfs中Non DFS Used佔用很大的問題分析處理

hadoop Non DFS Used是什麽

sort 10g fig grep strong pre 了解它的 user 首先我們先來了解一下Non DFS User是什麽？ Non DFS User的意思是：非hadoop文件系統所使用的空間，比如說本身的linux系統使用的，或者存放的其它文件它的計算公式

關於Linux中nohup.out日誌過大問題/設定定時任務清空

關於Linux中nohup.out日誌過大問題在此解決如下： 1，在nohup.out 所在目錄建立一個ClearNohup.sh 指令碼，通過定時任務讓其每週清理一次。防止nohup檔案過大問題。 #!/bin/bash # Author: Ljohn # La

mysql 分頁查詢limit中偏移量offset過大導致效能問題

在業務中經常會遇到關於分頁的需求，這就會經常會用到MySQL中的limit offset，rows來分段取出每頁中需要的資料。但是當資料量足夠大的時候，limit條件中的偏移量offset越大就越會導致效能問題，導致查詢耗時增加嚴重。先看一下測試：

vue專案中 vendor打包後過大解決辦法

vendor打包過大的原因就是引用三方外掛的js太大了，可以直接引用映象解決問題解決辦法如下 1.在webpack.base.conf.js中新增配置項表示webpack不需打包的檔案，‘外掛名’: '專案中別名' 2.在index.html中引入相應映象檔

導致nginx日誌中request_time過大的原因

場景: 檢視nginx日誌發現請求響應body為1500k左右和request_time為6s左右，導致請求超時無法獲取正常資料。原因: 使用者端網路問題: tcp傳輸如果分包時，每個tcp包大約1400位元組，之前那個請求響應body有1500K左右，要分成100多個

mpvue中使用echarts,echarts檔案過大問題

首先安裝mpvue-echarts：cnpm install mpvue-echarts --save 然後在元件中引用 import mpvueEcharts from "mpvue-echarts"; 接著引入import * as echarts from ".

HDFS原始碼檔案過大，IDEA開啟失敗解決方法

問題現象：hadoop 3.1.0原始碼檔案ClientNamenodeProtocolProtos大小4M+，IDEA開啟時載入失敗，ClientNamenodeProtocolPB報錯找不到類。 ----------------------------------------------------

從tData中刪除過大的冗餘欄位+

// 原始物件 var obj = { a: "aaaa", b: 123, c: { c1: "c1c1c1", c2: { }, c3: 123 } } //-----原始物件 console

SDK中.a包過大，單獨作為一個項目，功能項目引入SDK項目文檔及Search Paths相關參數說明

選中 none 打開目的每次創建文件 sdk shu com SDK包過大，單獨作為一個項目項目中使用第三方的SDK包（例如所有的.a文件1G多），導致項目整體過大，這個時候就可以把第三方的.a文件單獨作為一個項目。每次自動化打包都要從git拉去項目，不用每次都拉

解決tomcat日誌中cataline.out過大問題（切換用log4j）

1、準備jar包和檔案裡面包含：tomcat-juli.jar，tomcat-juli-adapters.jar，log4j-1.2.17.jar，log4j.properties四個檔案 2、將log4j.jar 和 tomcat-juli-adapters.ja

flume向hdfs中寫入大檔案（日誌）

問題： flume監控的目錄寫入大檔案的時候不能同步記錄在hdfs中 flume監控的目錄寫入大檔案的時候，同步記錄到hdfs中後變成多個小檔案解決辦法：更改flume的配置資訊（主要更改滾動方式），滾動的意思是當flume監控的目錄達到了配置資訊中的某一條滾動方式的時候

關於HDFS中dfs.datanode.du.reserved系統空間預留引數

dfs.datanode.du.reserved 官方解釋為：適用於非分散式檔案系統 (DFS) 使用的保留空間（位元組/卷）。通俗的意思：預留磁碟的一部分空間給作業系統用，這個引數主要是為了防止磁碟空間被寫滿導致的HDFS異常。通常系統預設保留5%的磁碟空間給作業系統用。那麼每個

Mybatis中使用流式查詢避免資料量過大導致OOM

一、前言前面介紹了裸露JDBC 方式使用流式程式設計，下面介紹下MYbatis中兩種使用流式查詢方法二、Mybaits中MyBatisCursorItemReader的使用 2.1 配置 MyBatisCursorItemReader的注入 <bean id="myMyBa

Mysql中使用JDBC流式查詢避免資料量過大導致OOM

一、前言 java 中MySQL JDBC 封裝了流式查詢操作，通過設定幾個引數，就可以避免一次返回資料過大導致 OOM。二、如何使用 2.1 之前查詢 public void selectData(String sqlCmd) throws SQLException { v

Android5.1以上webView中圖片顯示過大的解決方式

當我們使用webView時可能遇到適配問題，圖片過大以至於超出螢幕 1. 在android4.4以前是可以通過直接對webView.getSettings().setLayoutAlgorithm(LayoutAlgorithm.SINGLE_COLUMN);來設定載入的內

【sql】——日誌表過大，整理日誌表（事務日誌已滿請參閱sys.databases中的log_reuse_wait_desc列）

把一個表大量資料insert into 到另一個數據庫的表時，提示資料庫 'webdisk ' 的事務日誌已滿。若要查明無法重用日誌中的空間的原因，請參閱 sys.databases 中的 log_reuse_wait_ desc 列

Hadoop中正常啟動了datanode但管理介面卻卻顯示0個datanode節點或者只有本機的一個datanade，DFS Used顯示0（100%）

以下會列出引起該問題的常見原因，及其解決辦法 1、在hadoop已經啟動的前提下，使用命令netstat -an |grep 9001 （改命令用來監聽namenode主節點通訊情況，9001為

C#中執行緒佔用記憶體過大解決方法

專案中用到了多執行緒,而且是1000執行緒併發執行,發現記憶體佔用過高,於是對專案裡用到的物件逐個測試,發現是執行緒物件佔用記憶體 Thread[] threads = new Thread[1000]; for(int i = 0; i<threa

HDFS中Non DFS Used使用過大

相關推薦