大資料環境---資料倉庫(hive+mysql+hadoop)的構建
前面已經配置好了叢集環境zookeeper,hadoop。 以及分散式資料庫hbase。 這個階段要開始構建資料倉庫的練習。涉及到的軟體: mysql, hive 。
背景:
(我以前以為資料倉庫就是資料庫的資料庫。。)
可見,hive本質是一個hadoop的工具。
mysql自然不必過多再去查詢了。 需要注意的是它在centos7 的安裝卻有些講究。 本來centos用yum 可以很方便的將mysql服務安裝好,環境變數都不用配,但是我的網路環境不行,迫不得已只能去下載安裝包!! 在ubutu上安裝過mysql的tar.gz包,在windows上也可以下載zip包,但是centos上卻需要下一個 bundle的包,並且還要注意版本的問題。 通過bundle安裝還是第一次,所以遇到了很多的問題。
步驟:
1. centos 7 上安裝mysql:
下載並解壓下載下來的bundle包,並採用rpm進行安裝。
修改密碼策略並修改密碼:
mysql本身的一些操作任務命令:
很多命令都是Mysql本身要求的,雖然也用了很多遍了,但是每次用的時候總還是需要查一查。 估計是沒有在在課堂上將它當作古詩文而背下來的緣故,抑或是自己大腦覺得沒有記得必要。。
2.hive服務端的安裝:
2.1 解壓並配置環境變數:
2.2 在hive伺服器端,將mysql 的客戶端連線: mysql-connector拷貝至:hive的lib下。 注意,這個mysql-connector只需拷貝到hive的伺服器端即可,因為只有伺服器端需要跟mysql 通訊。 hive客戶端只需與服務端通訊,所以沒有這些步驟。
2.3 配置hive服務端的配置: conf/hive-env.sh
2.4 配置hive服務端配置: conf/hive-site.xml
3. hive客戶端安裝:
3.0 客戶端需要和hadoo通訊。 hadoop與hive的jline包版本需統一。 可以從Hive的lib包將jline的jar包拷貝給hadoop的lib位置。 注意這裡的情況: hive客戶端, hadoop伺服器端。
3.1解壓並配置環境變數。
3.2 修改conf/hive-env.sh, 新增hdoop路徑。
3.3 配置conf/hive-site.xml:
5. hive資料倉庫的驗證:
服務端:
客戶端: