重裝一次CM的坑爹記錄
今天同事要對測試環境進行降級(測試高於生產所以要求降級),自己不經常搞運維,但是無奈測試環境沒運維管理只能自己上了。
流程和遇到問題按數字表示。
1.重裝CM(clouder manager)這個過程還是比較容易的,機器選擇升級就好了,記得別點安裝JDK(多個版本JDK會影響集群JDK!!!),記得備份庫,我就是不小心把原始庫覆蓋了把集群搞沒了,CM的節點結構是主節點一個server創建數據庫,agent節點為子節點,所以啟動一個server節點時候會檢測沒這個庫會去進行插入(庫的創建要自己動手)
2.db.properties(為庫的連接配置,註意看agentserver日誌有相關信息),修改成自己對應的庫地址
3.節點比如統一root密碼
4.覆蓋CDH版本存在問題,記得機器全部安裝CM順利後(出錯多看log),server和agent都正常的話就可以進行parcel方式離線安裝(默認路徑是/opt/cloudera/parcel-report差不多是這個,可以設置自己配置把東西放下面)
CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.sha CDH-5.10.0-1.cdh5.10.0.p0.41-el6.parcel.torrent manifest.json
記得SHA1改成sha manifest只保留你自己版本對應哪個(cat下內容看看都能懂),點擊CM的添加集群可以進行安裝。過程存在很多問題,比如幾個關鍵路徑
[root@rhel071 run]# cd cloudera-scm-agent/
[root@rhel071 cloudera-scm-agent]# ls
cgroups cloudera-scm-agent.pid events flood process supervisor
[root@rhel071 cloudera-scm-agent]# pwd
/var/run/cloudera-scm-agent
這裏的ID文件每次啟動都會運行,有時候殘留會造成集群出錯。女的
[root@rhel071 lib]# cd cloudera-scm-agent/
[root@rhel071 cloudera-scm-agent]# ls
cm_guid response.avro uuid
[root@rhel071 cloudera-scm-agent]# pwd
/var/lib/cloudera-scm-agent
[root@rhel071 cloudera-scm-agent]#
這個CMID是對應每次server啟動的唯一值,殘留歷史CM也會造成出錯(eg:
Authentication failure for user: __cloudera_internal_user__
)
很多問題都是這兩個目錄東西殘留造成(這些問題百度也沒好的答案暈死,牛頭不對馬嘴,其實就是有時候強制重啟造成)
還有集群升級完機器後,機器啟動monitor那些東西,這個也是集群必須的,不啟動也是會給你報一堆你看不懂百度不到的錯誤(eg:sending messages to firehose,或者agent堅持不到parcel版本XXX之類都是沒啟動造成)
下次貼圖
還有安裝HDFS記得format出錯看看/data/dfs/nn dn是否為空,不為空需要刪除舊的數據
hadoop version 錯誤可能是沒配置好環境變量,或者/usr/bin 下面存在舊的hadoop影響
hadoop fs -ls報找不到core-site(其實路徑下有)也是沒配置好(hadoop_home)
export HADOOP_CONF_DIR=/opt/cloudera/parcels/CDH-5.10.0-1.cdh5.10.0.p0.41/lib/hadoop/etc/hadoop
如果報機器JDK不一致,記得rpm -qa|grep java yum -y remove XX把多余影響的刪除,配置自己一個版本就好了
(先記錄到這裏下次再記錄仔細點,裝了兩天多遇到不少問題怕忘記先記錄下)
重裝一次CM的坑爹記錄