1. 程式人生 > >大數據微職位學習心得

大數據微職位學習心得

http 什麽 min 重要 images 出現 地理信息 有一點 分享圖片

寫了幾年代碼,看到這些年大數據,AI鬧得火熱火熱,也想系統學習下大數據方面的東西,給自己充電一下。其實隨著IT技術的發展,我們行業(地理信息)也已經開始擁抱大數據了。越來越多的帶有位置的非結構化的數據需要處理,需要進一步挖掘。好了,廢話不多說了。下面開始分享下,學習大數據這門過程中的一些心得。
其實,大數據這門課,學起來還是得要有些知識儲備的,比如最基本的linux操作,以及操作hive以及mysql的一些語句(如果懂關系型數據庫裏的sql,那操作起這些語句就簡單了),Python的一些東西,如果有些開發經驗就更完美了。
在學習這門課的時候,最開始基於linux上的一些操作,以及後來的搭建集群倒是沒得啥問題。可是到後來安裝cloudera-manager的時候,發現master節點上的agent,server-db都起來了,server服務起不來,這時候就得去看相應路徑下的日誌啊,發現提示是缺包(紅框是根據日誌找到的缺的包,但是事實不止缺這麽幾個,其他的幾個都補上了):
技術分享圖片
想著這樣不是辦法,怕後續還會出啥問題,然後就拉著導師一起看,看了好久發現是cloudera manager的版本與linux版本不匹配導致的,後來一查我的系統是centos6.9的。下圖是在cloudera官網找到的cloudera manager 5.11版本與操作系統兼容的情況,當時我的linux系統是6.5的,應該是做了update沒註意到,update到6.9的版本了,可是呢官網給出的6.9版本的CentOS是不兼容cloudera manager 5.11安裝的。所以說學習一項東西看官網是很重要的,你想想東西都是出自他那裏,外面的中文的幫助書籍無非就是從人家的官網翻譯一下而已。
技術分享圖片
還有一點,出了問題時,不要怕,要學會去解決問題。比如在學hive,hbase,以及spark的時候,很多時候你執行操作的命令行,在出錯時終端會有相應的日誌,可以從日誌裏去捕捉導致異常的原因。以下是我在執行連接hive時:beeline -u jdbc:hive2://elephant:10000 出現的異常
技術分享圖片
就可以通過這些日誌在網上查一下,百度不行就去谷歌。這個日誌異常主要說的就是Name Node處於安全模式,不能產生/tmp/hive/hive/1074c23d-d039-4741-a6db-4d19adf4673f這個路徑,在網上查一下就會有相應的解決方案的。最反感的是一出問題就到處找人解決,首先自己得去分析下,去網上找下資料,實在不行的可以再請教別人。試想一下,本來問題很簡單,沒看就問別人,別人一看就指出了原因,豈不讓別人覺得自己很low?
技術分享圖片
最後我覺得,在學習時還是有必要根據老師講的來捋一下相應的流程,提煉出一些導圖啥的(思維導圖工具:xmind,mindmanager都不錯),這個確實對學習技術很有幫助,這個不管對學習哪一門技術都有用。其實看大家說HBASE講的都是理論,話說理論掌握了,操作應該沒什麽問題吧?反之,只會跟著老師敲一些命令,具體的裏面含義不懂,這對於學技術是沒有什麽意義的。





 

大數據微職位學習心得