Hadoop運維記錄系列(二十三)

阿新 • • 發佈：2018-07-13

class .com 數據報 write map 運行應用 inf 計算

最近做集群機房遷移，在舊機房和新機房之間接了根專線，做集群不停機搬遷，也就是跨機房，同時要新加百多臺服務器，遇到幾個問題，記錄一下。

舊集群的機器是centos 6, 新機房加的機器是centos 7。

一、丟包問題

在跨機房的時候，datanode顯示很多Slow BlockReceiver的日誌

WARN  org.apache.hadoop.hdfs.server.datanode.DataNode: Slow BlockReceiver write packet to mirror took 630ms(threshold=300ms)

經查，這個報錯的主要原因出在網卡的MTU設置上，hadoop建議將網卡mtu值從1500設置為9000，以支持接收jumbo frame。調整mtu值後，偶爾還會有幾條，但頻率小多了。而且我記得這個得交換機一起配合修改，光改服務器不好使。

二、centos7 執行df命令掛起，無法退出

在cent7下面執行df命令會死在那裏，用ctrl-c也沒法退出。由於我們的nodemanager健康檢查腳本裏面包含df命令，所以，nm的健康檢查會卡死，最後把所有CPU全吃光，導致計算任務無法正常進行。使用kill命令也無法殺掉僵死的df進程，使用strace跟蹤df命令也無法退出，必須用kill -9 殺掉strace才可以。

stat("/sys/fs/cgroup/memory", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/sys/kernel/config", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
stat("/", {st_mode=S_IFDIR|0555, st_size=4096, ...}) = 0
stat("/proc/sys/fs/binfmt_misc",

最後df就是卡死在 binfmt_misc 這了。

經查，這是centos7 systemd的一個bug，1534701，我們觸發這個bug的原因應該是在執行hadoop安裝的時候，作為依賴更新了systemd相關的組件，但是沒有進行重啟，新的systemd沒生效，所以重啟之後，故障解決。

三、專線流量大，導致跑任務慢

使用tcpdump及nmap綜合分析，發現大量的ARP連接，應是B類地址沒有做VLAN路由，跨機房集群相互之間做ARP通告引發廣播風暴。後續由運維重新規劃vlan解決。

這些故障基本都不是hadoop本身的問題，就像上一篇記錄裏面，幾百臺機器其中一臺的網卡變成了10Mbps，結果拖慢了整個集群的運行速度。這些問題都需要hadoop運維來發現，排查，通知其他部門，所以hadoop運維應該是在數據研發部門和運維部門之間的橋梁，能夠快速定位hadoop，數據應用，操作系統，硬件之間哪裏出現了問題，然後安排各相關人員解決，越快速定位，越能節省成本，時間成本和金錢成本都是成本，比如我司為了跨集群拉的專線據說一天一萬，客戶限定時間內跑不出數據報告丟的錢更多，我估摸著兩天解決這三問題少說能給公司節約幾十萬成本。

等跨機房遷移弄完了，可以專門寫一寫。

Hadoop運維記錄系列(二十三)

class .com 數據報 write map 運行應用 inf 計算最近做集群機房遷移，在舊機房和新機房之間接了根專線，做集群不停機搬遷，也就是跨機房，同時要新加百多臺服務器，遇到幾個問題，記錄一下。舊集群的機器是centos 6, 新機房加的機器是centos 7

Hadoop運維記錄系列(二十二)

比較 p s lB 什麽 bar 而不是細心故障 duplex 今天抽空解決了一個Hadoop集群的一個非常有意思的故障，之所有有意思，是這個故障既可以稱之為故障，又不算是故障，說不算問題吧，作業跑的特慢，說算問題吧，作業不但都能跑出來，還沒有任何報錯，所以還比較難查。

使用flask從零構建自動化運維平臺系列二

文章目錄程式碼管理目錄結構目錄結構用途說明目錄檔案說明配置檔案使用工廠來建立app 使用manage來管理使用manage建立資料庫初始化

Hadoop運維問題記錄

昨天同事遇到一個hadoop故障，找了半天沒看出問題，問到我這裡，花了一會解決了一下，估計這是我給暴風的叢集解決的最後的故障了，以後就不定給誰解決問題去了。只截下來了Namenode的報錯Log，Datanode的刷屏刷過去了，不過都差不多。 1 2 3

雙態運維分享之二：服務型CMDB的消費場景

新增 iso20000 那種 .cn 關聯通知變更不同維護近年來，CMDB在IT運維管理中的價值逐步得到認可，使用CMDB的期望值也日益增長。然而，CMDB實施和維護的高成本卻一直是建設者們的痛點。那麽今天，我們來探討一下如何通過消費來持續驅動CMDB的逐步完善。

linux運維學習之二進制格式安裝

二進制安裝 mysql 本周給大家帶來的是關於mysql的二進制格式的安裝，我們對於mysql的安裝一般有兩種方式，一是通過yum安裝，二是通過二進制格式的安裝，第一種方法yum安裝的方式非常簡單，如下： Centos6：yum install mysql-server Centos7：y

華為USG6330運維記錄-端口回流、策略路由

usg6330運維記錄、端口回流、策略路由1、起初虛擬化平臺中使用USG6330上聯ISP線路，只接入了一根線路；下聯S5700三層交換機（三臺做的堆疊）。在三層交換機上啟了幾個VLAN作為業務網端，並配置vlan地址，放置業務服務器（並未放置在DMZ）；USG6330和S5700這間通過互通地址通訊，USG

Hulu機器學習問題與解答系列 | 二十三：神經網絡訓練中的批量歸一化

導致 xsl 泛化能力恢復不同詳細過程 ice ini 來看看批量歸一化的有關問題吧！記得進入公號菜單“機器學習”，復習之前的系列文章噢。今天的內容是【神經網絡訓練中的批量歸一化】場景描述深度神經網絡的訓練中涉及諸多手調參數，如學習率，權重衰減系數，

Hadoop學習之路（二十三）MapReduce中的shuffle詳解

就是多個流程 http cer 分開分享圖片數據分區 bsp 概述 1、MapReduce 中，mapper 階段處理的數據如何傳遞給 reducer 階段，是 MapReduce 框架中最關鍵的一個流程，這個流程就叫 Shuffle 2、Shuffle: 數

ansible運維工具（二）

包含 example ice 完成 fqdn 模塊 php flavor 主體 ansible playbook（二）運行palybook時要使用ansible-playbook命令 palybook執行任務的順序是，在第一個主機上完成第一個任務，然後在第二個主機上完成

SSE圖像算法優化系列二十三: 基於value-and-criterion structure 系列濾波器（如Kuwahara，MLV，MCV濾波器）的優化。

Once 領域 hat ble 感覺 das 噪音 gre 種類基於value-and-criterion structure方式的實現的濾波器在原理上其實比較簡單，感覺下面論文中得一段話已經描述的比較清晰了，直接貼英文吧，感覺翻譯過來反而失去了原始的韻味了

SSE影象演算法優化系列二十三: 基於value-and-criterion structure 系列濾波器（如Kuwahara，MLV，MCV濾波器）的優化。 SSE影象演算法優化系列十四：區域性均方差及區域性平方差演算法的優化 SSE影象演算法優化系列七：基於SSE實現的極速的矩形核腐蝕和膨脹（

基於value-and-criterion structure方式的實現的濾波器在原理上其實比較簡單，感覺下面論文中得一段話已經描述的比較清晰了，直接貼英文吧，感覺翻譯過來反而失去了原始的韻味了。 T

Hadoop運維記錄系列(二十三)

Hadoop運維記錄系列(二十三)

Hadoop運維記錄系列(二十二)

使用flask從零構建自動化運維平臺系列二

Hadoop運維問題記錄

雙態運維分享之二：服務型CMDB的消費場景

linux運維學習之二進制格式安裝

華為USG6330運維記錄-端口回流、策略路由

Hulu機器學習問題與解答系列 | 二十三：神經網絡訓練中的批量歸一化

Hadoop學習之路（二十三）MapReduce中的shuffle詳解

ansible運維工具（二）

SSE圖像算法優化系列二十三: 基於value-and-criterion structure 系列濾波器（如Kuwahara，MLV，MCV濾波器）的優化。

自動化運維專題（二）：Ansible批量自動化管理工具

Linux初級運維（十二）——磁碟及檔案系統管理

Unity 六邊形地圖系列(二十三) ：自動生成地形

hadoop運維必備命令

DEVOPS 運維開發系列九：VLAN網段與私網IP資源的自動化運維管理

DEVOPS 運維開發系列八：高效管控網際網路頻寬和公網IP地址資源的新姿勢

DEVOPS 運維開發系列七：防火牆NAT配置資訊的集中式管理與展示

DEVOPS 運維開發系列六：綠燈測試

Hadoop運維記錄系列(二十三)

相關推薦