1. 程式人生 > >重裝一次CM的坑爹記錄

重裝一次CM的坑爹記錄

nbsp manifest 每次 創建 信息 nts 多余 end ood

今天同事要對測試環境進行降級(測試高於生產所以要求降級),自己不經常搞運維,但是無奈測試環境沒運維管理只能自己上了。

流程和遇到問題按數字表示。

1.重裝CM(clouder manager)這個過程還是比較容易的,機器選擇升級就好了,記得別點安裝JDK(多個版本JDK會影響集群JDK!!!),記得備份庫,我就是不小心把原始庫覆蓋了把集群搞沒了,CM的節點結構是主節點一個server創建數據庫,agent節點為子節點,所以啟動一個server節點時候會檢測沒這個庫會去進行插入(庫的創建要自己動手)

2.db.properties(為庫的連接配置,註意看agentserver日誌有相關信息),修改成自己對應的庫地址

3.節點比如統一root密碼

4.覆蓋CDH版本存在問題,記得機器全部安裝CM順利後(出錯多看log),server和agent都正常的話就可以進行parcel方式離線安裝(默認路徑是/opt/cloudera/parcel-report差不多是這個,可以設置自己配置把東西放下面)

CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.sha CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.torrent manifest.json

記得SHA1改成sha manifest只保留你自己版本對應哪個(cat下內容看看都能懂),點擊CM的添加集群可以進行安裝。過程存在很多問題,比如幾個關鍵路徑

[root@rhel071 run]# cd cloudera-scm-agent/
[root@rhel071 cloudera-scm-agent]# ls
cgroups cloudera-scm-agent.pid events flood process supervisor
[root@rhel071 cloudera-scm-agent]# pwd
/var/run/cloudera-scm-agent

這裏的ID文件每次啟動都會運行,有時候殘留會造成集群出錯。女的

[root@rhel071 lib]# cd cloudera-scm-agent/
[root@rhel071 cloudera-scm-agent]# ls
cm_guid response.avro uuid
[root@rhel071 cloudera-scm-agent]# pwd
/var/lib/cloudera-scm-agent
[root@rhel071 cloudera-scm-agent]#

這個CMID是對應每次server啟動的唯一值,殘留歷史CM也會造成出錯(eg:

Authentication failure for user: __cloudera_internal_user__

很多問題都是這兩個目錄東西殘留造成(這些問題百度也沒好的答案暈死,牛頭不對馬嘴,其實就是有時候強制重啟造成)

還有集群升級完機器後,機器啟動monitor那些東西,這個也是集群必須的,不啟動也是會給你報一堆你看不懂百度不到的錯誤(eg:sending messages to firehose,或者agent堅持不到parcel版本XXX之類都是沒啟動造成)

下次貼圖

還有安裝HDFS記得format出錯看看/data/dfs/nn dn是否為空,不為空需要刪除舊的數據

hadoop version 錯誤可能是沒配置好環境變量,或者/usr/bin 下面存在舊的hadoop影響

hadoop fs -ls報找不到core-site(其實路徑下有)也是沒配置好(hadoop_home)

export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.10.0-1.cdh5.10.0.p0.41/lib/hadoop/etc/hadoop

如果報機器JDK不一致,記得rpm -qa|grep java yum -y remove XX把多余影響的刪除,配置自己一個版本就好了

(先記錄到這裏下次再記錄仔細點,裝了兩天多遇到不少問題怕忘記先記錄下)

重裝一次CM的坑爹記錄