1. 程式人生 > >Cloudera簡介和安裝部署概述

Cloudera簡介和安裝部署概述

最近作者在研究Cloudera,並且在自己的虛擬機器叢集安裝部署成功,所以在此做個分享,幫助大家儘快構建自己的Cloudera環境並運用起來。文章將會對Cloudera以及其安裝時涉及到的元件做一個簡單的介紹,並把官方文件中介紹的3種安裝部署方式做一個概要的說明。

Cloudera簡介

為了構建一個以資料為驅動的業務場景,我們需要一個強大的管理工具去統一併安全地管理我們的業務資料,所以Cloudera做為一個強大的資料中心管理工具為此孕育而生。Cloudera不光提供了自己衍化重新封裝的市場領先並100%開源的商業化Apache Hadoop發行版本(CDH, Cloudera’s Distribution including Apache Hadoop)和相關的元件,其中包括了各類安全高效的企業級資料管理工具,如Hive, HBase,Oozie, Zookeeper等。 Hadoop是Apache(開源web伺服器軟體基金會)下的大資料開源專案,許多商業公司會在Apache Hadoop的基礎上重新開發成商業版本,Cloudera公司就是其中之一,最近在維護的兩個Hadoop版本分別是CDH4和CDH5。Hadoop使用分散式的思想儲存,計算和分析資料,它允許多個數據分析計算任務同時作用在同一個資料塊上並在叢集上進行分散式計算,以此來進行超大規模資料的處理。Hadoop是大資料處理框架的鼻祖之一,同時Cloudera公司的Hadoop版本CDH也是目前使用最廣泛的Hadoop商業版本。從廣泛意義來說,CDH是Cloudera釋出的一個自己封裝的商業版軟體發行包,裡面不僅包含了Cloudera的商業版Hadoop,同時CDH中也包含了各類常用的開源資料處理儲存框架,如Spark,Hive,HBase等。

Cloudera作為一個強大的商業版資料中心管理工具,提供了各種能夠快速穩定執行的資料計算框架,如Apache Spark;使用Apache Impala做為對HDFS,HBase的高效能SQL查詢引擎;也帶了Hive資料倉庫工具幫助使用者分析資料; 使用者也能用Cloudera管理安裝HBase分散式列式NoSQL資料庫;Cloudera還包含了原生的Hadoop搜尋引擎以及Cloudera Navigator Optimizer去對Hadoop上的計算任務進行一個視覺化的協調優化,提高執行效率;同時Cloudera中提供的各種元件能讓使用者在一個視覺化的UI介面中方便地管理,配置和監控Hadoop以及其它所有相關元件,並有一定的容錯容災處理;Cloudera作為一個廣泛使用的商業版資料中心管理工具更是對資料的安全決不妥協!

Cloudera主要釋出了3個型別的產品。 
這裡寫圖片描述

QuickStarts產品是提供了不同的虛擬機器映象安裝檔案,裡面已經提前安裝和設定好了所有的Cloudera環境和相關元件,包括CDH,Cloudera Manager,Cloudera Impala,Cloudera Search等。其中對於叢集版本選擇QuickStart Docker,而單節點版本選擇QuickStart VM;這些已經預裝好所有元件以及環境的虛擬機器映象檔案能幫助使用者快速地測試和學習Cloudera。 
這裡寫圖片描述

Cloudera Manager產品則是著重於幫助大家管理自己的CDH叢集,通過Cloudera Manager統一的UI介面來快速地自動配置和部署CDH和其相關元件,同時Cloudera Manager還提供了各種豐富的可自定義化的監視診斷和報告功能,叢集上統一的日誌管理功能,統一的叢集配置管理和實時配置變更功能,多租戶功能,高可用容災部署功能和自動恢復功能等, 方便企業統一管理和維護自己的資料中心。Cloudera Manager產品也是我們主要的安裝內容和介紹物件。它細分為免費的Express版本和功能完全並提供眾多增值服務的收費版本Enterprise。QuickStarts和Cloudera Manager都屬於是Cloudera Enterprise產品,

Cloudera Director是Cloudera Enterprise 5.2 釋出時推出的第三個Cloudera產品,它的主要作用就是提供一個統一的管理和監視中心方便使用者能在雲服務提供商的伺服器上部署CDH和其相關元件,並維護它們。目前Cloudera Director支援的雲服務提供商包括亞馬遜的AWS,微軟的Azure, 谷歌的Google Cloud Platform等。至於對國內阿里雲的支援程度作者暫時還沒有進行了解。 
這裡寫圖片描述

Cloudera Manager的安裝

Cloudera Manager可以說是Cloudera系列產品和元件的核心,它負責統一配置管理CDH叢集,基本上本篇文章都是圍繞CM的安裝部署來展開的,然後再通過CM去安裝CDH及其其它相關元件。 
這裡寫圖片描述

由上面的結構圖可知,Cloudera Manager的核心是Cloudera Manager Server。CM Server集成了Admin Console Web Server,提供了統一的UI和API方便使用者和叢集上的CDH以及其它服務進行互動,並實施監控和診斷等;CM Server還負責安裝配置CDH和其相關的服務軟體,啟動停止服務,維護叢集中各個節點伺服器以及上面執行的程序。

CM Server主要由下面幾個元件組成: 
- Cloudera Manager Agent,安裝在叢集的所有節點上,負責啟動和殺死各個CM管理的服務程序,解壓和安裝CM管理的服務,自動配置,通過心跳機制監視叢集伺服器狀態(預設每15秒Agent傳送心跳給CM Server)等。 
- Management Service,主要是負責叢集中各種服務的監視,通知,報告等功能。 
- Database,內建資料庫或者使用使用者自定義的外部資料庫儲存CM的配置資訊和監控資訊。 
- Cloudera Repository 
- Clients,web-based的UI介面方便使用者和CM Server進行互動,同時還提供了API供使用者自定義Cloudera Manager程式。

本文中介紹的安裝方式主要建立在CentOS6.X作業系統上。 
CM的部署主要是安裝以下幾個元件: 
- Oracle的Open JDK 
- Cloudera Manager Server 和 Agent 
- 資料庫 
- CDH和要使用的各個元件

Cloudera官方提供了3種主要的安裝方式,大家可以根據自己的實際情況選擇合適的方式。

PATH A - 使用Cloudera Manager Installer安裝CM,然後再通過CM自動部署Oracle JDK,Embedded PostgreSQL,Cloudera Manager Agent,CDH和相關元件

PATH A的安裝只適合用作對Cloudera快速的學習和測試,並不適用於實際生產環境的部署,因為它並不適合叢集的橫向擴容並且叢集增長的時候還可能需要做資料遷移。

叢集伺服器準備

準備至少3臺CentOS6.X的伺服器,因為Zookeeper要求至少3臺以上奇數的伺服器才能啟動。接著配置3臺伺服器之間的SSH免密登入,因為HDFS伺服器之前的通訊和服務的啟動都是通過SSH的方式來進行。SSH免密登入的簡單配置可以通過以下的方式:

#安裝ssh-client
$yum install ssh-client

#在要進行免密登入的客戶機上執行下面的命令,有提示時全部按回車就可以
$ssh-keygen 

#這裡的IP地址輸入的是要遠端免密登入的伺服器IP地址
$ssh-copy-id  192.168.1.12 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

叢集中每個伺服器都需要關閉防火牆

$service iptables stop
  • 1

關閉SELinux檔案訪問控制系統,修改/etc/selinux/config 配置檔案中的”SELINUX=enforcing”為”SELINUX=disabled” 並重啟作業系統。

資料庫的安裝

Cloudera Manager需要外部的資料庫儲存一些元資料資訊,配置資訊,系統和任務的執行資訊等。在PATH A的方式下,Cloudera Manager Installer會自動安裝內建的PostgreSQL資料庫。當然使用者也可以安裝其它的資料庫並配置成當前CM使用的資料庫。

單使用者模式配置

如果生產環境中的叢集伺服器不支援使用root使用者,CM5.3以後推出了Single User Mode,可以讓CM使用使用者自定義的系統使用者和使用者組。本文中就不做詳細介紹,預設使用root使用者。

Python環境安裝

CM需要執行在Python環境下,在CentOS6.X版本中,需要安裝Python2.6來啟動Cloudera Manager。Python環境的安裝在CentOS系統中可以通過以下命令來進行安裝 
$yum install python26 
不過建議安裝之前檢查自己的系統,因為預設CentOS中已經預裝好Python環境了。

yum源的配置

在PATH A的安裝方式下,主要使用yum去安裝各個元件和依賴包,所以要保證網路的暢通以及能接入archive.cloudera.com地址。如果系統中自帶的預設的yum源無法解析,大家可以去下載一份阿里雲源。

#備份系統預設的yum源
$mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup

#下載並將yum源替換成阿里雲
$wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-6.repo
  • 1
  • 2
  • 3
  • 4
  • 5
安裝Oracle JDK

叢集上所有的機器都需要安裝JDK環境,預設Cloudera Manager Installer和Cloudera Manager都會自動在所有節點安裝JDK環境,當然使用者也可以選擇自己手動配置JDK環境,這裡我就不贅述了。

下載和安裝Cloudera Manager Installer

使用者可以進入Cloudera Manager產品頁面,選擇想要安裝的Cloudera Manager版本並在頁面中sign in和同意相應的協議後就能看到下載Cloudera Manager Installer的連結,並通過它去安裝Cloudera Manager Server。同時我們可以看到Cloudera Manager Installer實際上就是一個*.bin檔案,*.bin檔案就是把*.sh檔案和rpm安裝包或者*.sh檔案和zip包等封裝成bin。當執行bin檔案的時候就是使用*.sh指令碼把zip解壓,或者安裝rpm包,或者使用yum安裝軟體的過程。

#去到你想要安裝Cloudera Manager Server的目錄中,並下載CM Installer
$wget https://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin

#給bin檔案執行許可權
$ chmod u+x cloudera-manager-installer.bin

#執行bin檔案從網路上安裝Cloudera Manager Server
$ sudo ./cloudera-manager-installer.bin
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

Cloudera Manager Installer開始執行後將會順序完成以下幾個任務 
- 安裝Oracle JDK和Cloudera Manager repository檔案 
- 安裝Cloudera Manager Server 和 內建的PostgreSQL資料庫 
- 執行Cloudera Manager Server 和 內建的PostgreSQL資料庫

在使用CM Installer安裝的過程中需要下載Cloudera Manager Daemons的rpm安裝包,必須先安裝了CM Daemons才能執行CM Server,大概有500多M,會經常中斷下不下來,建議大家可以在一個穩定的網路環境下先下下來,然後手動安裝。

$yum localinstall –-nogpgcheck  cloudera-manager-daemons-5.8.1-1.cm581.p0.7.el6.x86_64.rpm.rpm
  • 1

整個Installer安裝過程的日誌在:/var/log/cloudera-manager-installer/ 目錄下可以找到

登入Cloudera Manager Admin Console

當Cloudera Manager Installer安裝配置完Cloudera Manager Server,以及CM Server所使用的內建資料庫後,Installer會啟動cloudera-scm-server服務。這時就可以通過http://localhost:7180 登入CM網頁版的管理中心,預設使用者名稱和密碼都是admin,接著就可以通過CM管理中心自動安裝配置CDH和相關服務。

使用CM自動安裝CDH和相關元件

登入進去Admin Console後,在UI介面選擇CDH安裝方式的頁面,只能選擇使用Parcels或者Packages其中一種方式進行安裝,如果之前已經手動安裝了CDH以及其它元件的Packages,那麼就無法使用parcel的方式進行安裝。parcel是一個序列化後的二進位制打包檔案,附帶著程式設計檔案和一些元資料檔案,是官方推薦使用的CDH安裝方式之一。 
可以指定從本地的parcel repository中安裝或者遠端連線parcel URL進行安裝。這裡作者選擇使用本地的parcel repository進行安裝。先從https://archive.cloudera.com/cdh5/parcels/5/中下載CDH的parcel包,主要是下載CDH-5.8.0-1.cdh5.8.0.p0.42-el6.parcel,CDH-5.8.0-1.cdh5.8.0.p0.42-el6.parcel.sha1,manifest.json這3個檔案,然後把這些檔案放入CM Server節點預設的parcel路徑中/opt/cloudera/parcel-repo,最後在Admin Console中選擇parcel安裝的方式。

後續只要根據Admin Console的介面指引選擇符合自己需求的配置,完成安裝就可以了。CM Server會幫助使用者完成絕大多數的配置。安裝完成後可以通過在瀏覽器中輸入http://Your_CM_Server_IP:50070 驗證是否能開啟HDFS控制檯,如果是則證明安裝成功。

PATH B - 使用yum,或者apt-get包管理工具或者Cloudera Parcels的方式下載安裝Cloudera Manager Server,Cloudera Manager Agent,Oracle JDK,CDH以及其它服務。

叢集伺服器準備

準備至少3臺CentOS6.X的伺服器,因為Zookeeper要求至少3臺以上奇數的伺服器才能啟動。接著配置3臺伺服器之間的SSH免密登入,因為HDFS伺服器之前的通訊和服務的啟動都是通過SSH的方式來進行。SSH免密登入的簡單配置可以通過以下的方式:

#安裝ssh-client
$yum install ssh-client

#在要進行免密登入的客戶機上執行下面的命令,有提示時全部按回車就可以
$ssh-keygen 

#這裡的IP地址輸入的是要遠端免密登入的伺服器IP地址
$ssh-copy-id  192.168.1.12 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

叢集中每個伺服器都需要關閉防火牆

$service iptables stop
  • 1

關閉SELinux檔案訪問控制系統,修改/etc/selinux/config 配置檔案中的”SELINUX=enforcing”為”SELINUX=disabled” 並重啟作業系統。

單使用者模式配置

如果生產環境中的叢集伺服器不支援使用root使用者,CM5.3以後推出了Single User Mode,可以讓CM使用使用者自定義的系統使用者和使用者組。本文中就不做詳細介紹,預設使用root使用者。

Python環境安裝

CM需要執行在Python環境下,在CentOS6.X版本中,需要安裝Python2.6來啟動Cloudera Manager。Python環境的安裝在CentOS系統中可以通過以下命令來進行安裝 
$yum install python26 
不過建議安裝之前檢查自己的系統,因為預設CentOS中已經預裝好Python環境了。

資料庫的安裝

Cloudera Manager需要外部的資料庫儲存一些元資料資訊,配置資訊,系統和任務的執行資訊等。在PATH B的方式下,使用者需要自己安裝生產環境的資料庫並配置成Cloudera Manager和Hive Metadata所使用的庫。 
當安裝完資料庫後,可以通過以下程式碼設定CM Server使用自定義的生產環境資料庫

$/usr/share/cmf/schema/scm_prepare_database.sh database-type [options] database-name username password
  • 1

以上程式碼執行後會順序建立CM Server資料庫的配置檔案,並指定特定資料庫以及特定的使用者名稱和密碼為CM Server使用的儲存資料庫環境。 
接著需要下載資料庫的連線驅動包,如Mysql的驅動包配置如下:

$tar zxvf mysql-connector-java-5.1.31.tar.gz
$sudo cp mysql-connector-java-5.1.31/mysql-connector-java-5.1.31-bin.jar /usr/share/java/mysql-connector-java.jar
  • 1
  • 2

剩下就根據實際所使用的服務元件配置資料庫和連線驅動包,如Hive Metastore,Sqoop等

設定Cloudera Manager Repository環境

Cloudera官方推薦使用yum,apt-get或者zypper等包管理工具來安裝CM以及其相關的元件。和PATH A使用bin自動化安裝CM Server並自動配置內建資料庫的方式不同的是,PATH B中使用包管理工具安裝CM Server,並且使用者需要自己配置生產環境的資料庫。 
首先,需要下載Cloudera Manager的Repository檔案,並拷貝到/etc/yum.repos.d/目錄中作為yum源

$cd /etc/yum.repos.d/
$wget https://archive.cloudera.com/cm5/redhat/5/x86_64/cm/cloudera-manager.repo
  • 1
  • 2
安裝Oracle JDK和Cloudera Manager
#安裝Open JDK
$ sudo yum install oracle-j2sdk1.7

#安裝Cloudera Manager Server和啟動它需要的守護程序
$ sudo yum install cloudera-manager-daemons cloudera-manager-server
  • 1
  • 2
  • 3
  • 4
  • 5
手動安裝Cloudera Manager Agent

CM Agent負責啟動和殺死各個CM管理的服務程序,解壓和安裝CM管理的服務,自動配置,通過心跳機制監視叢集伺服器狀態(預設每15秒Agent傳送心跳給CM Server)等

#叢集上所有的節點包括主節點都需要安裝CM Agent
$ sudo yum install cloudera-manager-agent cloudera-manager-daemons
  • 1
  • 2

接著需要在叢集的所有節點上設定/etc/cloudera-scm-agent/config.ini檔案中server-host和server-port兩個屬性,是CM Agent連線的CM Server程序所執行的伺服器IP和埠。

手動安裝CDH5和相關的元件
#安裝CDH
$sudo yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm 

#安裝CDH相關的其它元件,如Hive,Impala,Spark等
$ sudo yum clean all
$ sudo yum install avro-tools crunch flume-ng hadoop-hdfs-fuse hadoop-hdfs-nfs3 hadoop-httpfs hadoop-kms hbase-solr hive-hbase hive-webhcat hue-beeswax hue-hbase hue-impala hue-pig hue-plugins hue-rdbms hue-search hue-spark hue-sqoop hue-zookeeper impala impala-shell kite llama mahout oozie pig pig-udf-datafu search sentry solr-mapreduce spark-core spark-master spark-worker spark-history-server spark-python sqoop sqoop2 whirr
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
啟動Cloudera Manager Server和Agents
#在主節點上啟動 Cloudera Manager Server
$ sudo service cloudera-scm-server start

#在叢集的所有節點上輸入下面的命令啟動CM Agent
sudo service cloudera-scm-agent start
  • 1
  • 2
  • 3
  • 4
  • 5
登入Cloudera Manager Admin Console

當Cloudera Manager Installer安裝配置完Cloudera Manager Server,以及CM Server所使用的內建資料庫後,Installer會啟動cloudera-scm-server服務。這時就可以通過http://localhost:7180 登入CM網頁版的管理中心,預設使用者名稱和密碼都是admin,接著就可以通過CM管理中心自動安裝配置CDH和相關服務(如果之前沒有選擇手動的方式而是選擇了由CM安裝的方式)。

使用CM自動安裝CDH和相關元件

登入進去Admin Console後,在UI介面選擇CDH安裝方式的頁面,只能選擇使用Parcels或者Packages其中一種方式進行安裝,如果之前已經手動安裝了CDH以及其它元件的Packages,那麼就無法使用parcel的方式進行安裝。parcel是一個序列化後的二進位制打包檔案,附帶著程式設計檔案和一些元資料檔案,是官方推薦使用的CDH安裝方式之一。 
可以指定從本地的parcel repository中安裝或者遠端連線parcel URL進行安裝。這裡作者選擇使用本地的parcel repository進行安裝。先從https://archive.cloudera.com/cdh5/parcels/5/中下載CDH的parcel包,主要是下載CDH-5.8.0-1.cdh5.8.0.p0.42-el6.parcel,CDH-5.8.0-1.cdh5.8.0.p0.42-el6.parcel.sha1,manifest.json這3個檔案,然後把這些檔案放入CM Server節點預設的parcel路徑中/opt/cloudera/parcel-repo,最後在Admin Console中選擇parcel安裝的方式。

後續只要根據Admin Console的介面指引選擇符合自己需求的配置,完成安裝就可以了。CM Server會幫助使用者完成絕大多數的配置。安裝完成後可以通過在瀏覽器中輸入http://Your_CM_Server_IP:50070 驗證是否能開啟HDFS控制檯,如果是則證明安裝成功。

PATH C - 使用Tar包的方式安裝Cloudera Manager Server,Cloudera Manager Agent,CDH,JDK

PATH C的安裝方式適合在離線的環境下進行Cloudera各個元件的安裝,直接解壓tar包,手動建立資料夾並將各個元件的tar包解壓內容放置在這些建立的指定目錄下,最後手動進行各項配置檔案的配置,建立使用者,資料庫驅動包安裝,資料庫建表等。因為篇幅有限,作者將專門撰寫一篇Cloudera的離線安裝文件進行描述,就不在此進行詳細描述了。

Cloudera Manager和CDH等元件部署成功後就可以見到如下的介面,可以看出來CM提供了許多強大的監控,報告和診斷服務,而且作者因為只是在膝上型電腦上用虛擬機器來模擬叢集,也沒做任何優化配置,可以看多這個叢集的健康狀態非常差。後續作者會繼續深入學習Cloudera,並不定期分享一些學習心得。 
這裡寫圖片描述

Toubleshooting

作者在部署成功沒多久,整個Cloudera Manager Server就掛了。後來檢視/var/log/cloudera-scm-server/loudera-scm-server.log 時發現主節點的JVM一直在做Full GC記憶體回收,並且“Stop the World”長達一分鐘以上,明顯是因為記憶體不夠。這是因為作者使用的是虛擬機器來部署,每個VM只分配了1GB的記憶體,後來給主節點分配了至少2GB的記憶體,問題就解決了。

相關推薦

Cloudera簡介安裝部署概述

最近作者在研究Cloudera,並且在自己的虛擬機器叢集安裝部署成功,所以在此做個分享,幫助大家儘快構建自己的Cloudera環境並運用起來。文章將會對Cloudera以及其安裝時涉及到的元件做一個簡單的介紹,並把官方文件中介紹的3種安裝部署方式做一個概要的說明。Cloudera簡介為了構建一個以資料為驅動的

spark概述安裝部署

初識 lock path memory 由於 flat 集群 worker opts 1、spark概述 1、什麽是spark 基於內存的計算引擎,它的計算速度非常快。但是spark僅僅只涉及到數據的計算,沒有涉及到數據的存儲。 2、為什麽學習spark

Redis的概述、優勢安裝部署

Redis概述 Redis是一個開源,先進的key-value儲存,並用於構建高效能,可擴充套件的應用程式的完美解決方案。 Redis從它的許多競爭繼承來的三個主要特點: Redis資料庫完全在記憶體中,使用磁碟僅用於永續性。 相比許多鍵值資料儲存,Redis擁有一套較為豐富的資料型別。S

redis學習--簡介安裝

key-value shel 解壓 過去 內存 下載 local 完成 test 1.redis介紹: Redis 與其他 key - value 緩存產品有以下三個特點: Redis支持數據的持久化,可以將內存中的數據保存在磁盤中,重啟的時候可以再次加載進行使用。 Re

(一)Solr——簡介安裝配置

str 服務 開源項目 一個 war prop post 沒有 系統安裝 1. solr簡介 1.1 Solr是什麽 Solr是apache的頂級開源項目,它是使用java開發 ,基於lucene的全文檢索服務器。 Solr和lucene的版本是同步更新的,最新的版本

Elasticsearch簡介安裝對比

特殊 字段 tree apache 查看 端口 blog work 分布式搜索 各位小夥伴,又到了本期分享大數據技術的時間,本次給大夥帶來的是Elasticsearch這個技術,閑話不多聊,我們開始進入正題。 一、什麽是elasticsearch Elasticsearc

drbd(一):簡介安裝

分區創建 主從 簡單 scheduler 完成 exp com 解析 etc 本文目錄:1.drbd簡介2.drbd工作原理和術語說明 2.1 drbd工作原理 2.2 drbd復制協議模型 2.3 drbd設備的概念 2.4 drbd資源角色 2.5 drbd工作模式 2

(一)Redis簡介安裝

con oot 毫秒 cabinet ssh命令 算法 第一步 結構化 介紹 1 Redis介紹 1.1 什麽是NoSql 為了解決高並發、高可擴展、高可用、大數據存儲問題而產生的數據庫解決方案,就是NoSql數據庫。 NoSQL,泛指非關系型的數據庫

Zookeeper簡介安裝(二)

cond AD 2.0 echo agreement log4 分布式鎖 express war 一、簡介: Zookeeper是一個分布式協調服務,提供的服務如下: 命名服務:類似於DNS,但僅對於節點 配置管理:服務配置信息的管理 集群管理:Dubbo使用Zookeep

elastic search&logstash&kibana 學習歷程(三)Logstash使用場景安裝部署

download ssa 技術 tar.gz 我認 搬運 OS last 文檔 Logstash基本介紹和使用場景 自我認為:logstash就是日誌的采集收集,日誌的搬運工,實時去采集日誌。讀取不同的數據源,並進行過濾,開發者自定義規範輸出到目的地。日誌的來源很多,如系統

Sqoop簡介安裝部署

cdh5 ive not 簡介 ins one generate and lin 簡介: Apache Sqoop是專為Apache Hadoop和結構化數據存儲如關系數據庫之間的數據轉換工具的有效工具。你可以使用Sqoop從外部結構化數據存儲的數據導入到Hadoop分布

Apache Flume簡介安裝部署

display 根據 buffers type hello headers agent tran 結構圖 概述 Flume 是 Cloudera 提供的一個高可用的,高可靠的,分布式的海量日誌采集、聚合和傳輸的軟件。 Flume 的核心是把數據從數據源(source)收集

Redis簡介安裝

步驟 key 復制 路徑 redis簡介 數據 進入 cli tar Redis介紹 Redis是一種Key-Value存儲系統(數據庫),其提供了一組豐富的數據結構,如List,Sets,Hashes和Ordered Sets Redis安裝 wget <Redi

一、MySQL資料庫之簡介安裝

一、基礎部分 1.資料庫是簡介     之前所學,資料要永久儲存,比如使用者註冊的使用者資訊,都是保存於檔案中,而檔案只能存在於某一臺機器上。 如果我們不考慮從檔案中讀取資料的效率問題,並且假設我們的程式所有的元件都執行在一臺機器上,那麼用檔案存

訊息佇列之RabbitMQ - 簡介安裝

       訊息佇列:是簡單的生產者和消費者模式,它的出現是讓各個服務板塊之間解耦和訊息通知。比如,我們一般生成服務板塊中的資料存在有:資料庫,靜態檔案,搜尋系統,hdfs等,那麼如果資料庫中的資料發生了變化,怎麼把這個訊息推送給其他的資料儲存單元呢?如果單

Solr單機版簡介安裝以及Spring boot整合使用

目錄     一、簡單介紹solr    二、solr安裝    三、分析器安裝    四、全量匯入、增量匯入  &n

React之簡介安裝

React簡介: React 是一個用於構建使用者介面的 JavaScript 庫。 React主要用於構建UI,很多人認為 React 是 MVC 中的 V(檢視)。 React 起源於 Facebook 的內部專案,用來架設 Instagram 的網站,並於

Redis的簡介安裝

Redis的簡介 Redis屬於非關係型資料庫(NoSQL),傳統的Mysql ,oracle ,sql server 等都是關係型資料庫 使用Nosql資料庫的原因 High performance -高併發讀寫 Huge Storage-海量資料的高效率儲存和訪問

Electron簡介安裝使用

一、Electron簡介Electron的應用,使得了JS不僅僅可以BS端專案,還可以做CS端專案。 另外今天之所以研究下Electron,還是因為公司的需要,業務場景是,通過Electron.js開發出的桌面應用讓客戶可以通過這個桌面應用管理裝置和資產,同時也可以監控對應的裝置狀態等等。傳統的exe對於我

linux中資料倉庫工具hive簡介安裝部署詳解

簡介: Apache Hive是一個建立在Hadoop架構之上的資料倉庫。它能夠提供資料的精煉,查詢和分析。 hive是基於Hadoop的一個數據倉庫工具,可以將結構化的資料檔案對映為一張資料庫表,並提