1. 程式人生 > >大資料技能修煉的個人道場

大資料技能修煉的個人道場

大資料技術火熱而且火爆,學習大資料的課程和資料也氾濫如潮,而大資料研發環境又不是隨便就可以搭建起來的,如何有一個自己隨時可用的大資料修煉道場呢?

網上有很多hadoop單機版的搭建教程,但大多是基礎元件,如果想窺探Hadoop 的整個生態系統,並建立一個人的大資料環境,從而修煉大資料的各種技術,我覺得非 HDP 的Sandbox 莫屬了。 

HDP 的Sandbox 是一個基於虛擬機器的單節點hadoop叢集,相當於一個偽分散式環境,學習和使用都非常的輕鬆便捷。虛擬機器既支援VMware也支援VirtualBox,完全可以在windows和mac 上無縫執行,需要注意的是需要64位的主機多核cpu並支援虛擬化。

以virtualbox為例,三步,只需三步,就可以搭建自己修煉大資料技術的環境了。
1)先去下載安裝virtualbox,https://www.virtualbox.org/wiki/Downloads,選好自己的所需的版本,下載安裝。
2)下載HDP sandbox,http://hortonworks.com/products/hortonworks-sandbox/#install,選擇virtual box 版本即可,檔案較大,接近9個G,要有耐心。
3)啟動Virtualbox,倒入HDP sandbox映象,import 完成後如下圖:

忽略那個我自己的ubantu映象,啟動HDP sandbox 即可。 從Ambri開始,就可以逐漸走進Hadoop 的ecosystem 了。


如果只是想馬上實踐大資料平臺計算的應用,可以直接利用雲服務。
AWS 的大資料雲服務:https://aws.amazon.com/cn/elasticmapreduce/  這是EMR,當時實時流處理也很強。
阿里雲的大資料雲服務:https://www.aliyun.com/product/emapreduce 只可惜還在公測,沒了ali 的名頭
青雲的大資料雲服務: https://www.qingcloud.com/products/big_data_platform 後起之秀,也不錯,只是HBase 還沒有商用。
其他的雲PaaS 大資料計算 沒有過多嘗試,不敢妄言了。
--------------------- 
作者:半吊子全棧工匠 
來源:CSDN 
原文:https://blog.csdn.net/wireless_com/article/details/50663978 
版權宣告:本文為博主原創文章,轉載請附上博文連結!