1. 程式人生 > >大資料環境---資料倉庫(hive+mysql+hadoop)的構建

大資料環境---資料倉庫(hive+mysql+hadoop)的構建

       前面已經配置好了叢集環境zookeeper,hadoop。 以及分散式資料庫hbase。 這個階段要開始構建資料倉庫的練習。涉及到的軟體: mysql, hive 。 

      背景

         

      (我以前以為資料倉庫就是資料庫的資料庫。。)

         可見,hive本質是一個hadoop的工具。 

   mysql自然不必過多再去查詢了。  需要注意的是它在centos7 的安裝卻有些講究。   本來centos用yum 可以很方便的將mysql服務安裝好,環境變數都不用配,但是我的網路環境不行,迫不得已只能去下載安裝包!!   在ubutu上安裝過mysql的tar.gz包,在windows上也可以下載zip包,但是centos上卻需要下一個  bundle的包,並且還要注意版本的問題。  通過bundle安裝還是第一次,所以遇到了很多的問題。 

步驟

      1. centos 7 上安裝mysql:

                 下載並解壓下載下來的bundle包,並採用rpm進行安裝。 

                 

               修改密碼策略並修改密碼:

               

              mysql本身的一些操作任務命令:

                   

                   

                   

                   

                    

                    

            很多命令都是Mysql本身要求的,雖然也用了很多遍了,但是每次用的時候總還是需要查一查。  估計是沒有在在課堂上將它當作古詩文而背下來的緣故,抑或是自己大腦覺得沒有記得必要。。

   2.hive服務端的安裝:

          2.1 解壓並配置環境變數: 

                   

          2.2 在hive伺服器端,將mysql 的客戶端連線: mysql-connector拷貝至:hive的lib下。  注意,這個mysql-connector只需拷貝到hive的伺服器端即可,因為只有伺服器端需要跟mysql 通訊。 hive客戶端只需與服務端通訊,所以沒有這些步驟。 

          2.3 配置hive服務端的配置:  conf/hive-env.sh

               

               

          2.4 配置hive服務端配置:  conf/hive-site.xml

              

              

 

    3. hive客戶端安裝:

                3.0 客戶端需要和hadoo通訊。  hadoop與hive的jline包版本需統一。 可以從Hive的lib包將jline的jar包拷貝給hadoop的lib位置。 注意這裡的情況: hive客戶端, hadoop伺服器端。 

                3.1解壓並配置環境變數。

                3.2 修改conf/hive-env.sh, 新增hdoop路徑。 

                3.3 配置conf/hive-site.xml:

        

   5. hive資料倉庫的驗證: 

               服務端:       

                   

                    

           客戶端: