1. 程式人生 > >大快搜索資料爬蟲技術例項安裝教學篇

大快搜索資料爬蟲技術例項安裝教學篇

大快搜索資料爬蟲技術例項安裝教學篇

 

爬蟲安裝前準備工作:大快大資料平臺安裝完成、zookeeper、redis、elasticsearch、mysql等元件安裝啟動成功。

 

1、修改爬蟲安裝配置檔案(最好線上下修改好後再上傳平臺)

 

 

 

2、修改crawler\dkcrw\jdbc.properties配置檔案(只修改圖片裡的內容其他內容預設即可)

 

 

Hbase.zookeeper.quorum所填地址應在DKM監控平臺檢視:

 

 

Redis相關配置看如下介面:

 

 

3、把已修改的crawler\dkcrw\下的jdbc.properties配置檔案替換到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes(這下面有一個沒有改好的直接替換)

 

 

修改好後把修改好的爬蟲檔案打壓成壓縮檔案

4、上傳平臺主節點並解壓(這裡就不介紹怎麼上傳了的了,本次例子是上傳到root目錄下,安裝包上傳到任何目錄下都可以推選root目錄)

 

 

 

unzip 解壓命令,解壓唱功後會多了一個  cuawler  的資料夾

 

 

使用cd  crawler  命令進入  crawler 資料夾下

 

 

使用mysql -uroot -p123456 < numysql.sql 命令新增numysql.sql資料庫

 

 

5、分發爬蟲檔案

 

 

每個節點都需要有dkcrw檔案, dkcrw-tomcat-7.0.56檔案只能放在一個節點上,不能放在主節點上(推選放在從節點)

命令:

scp -r  {要分發的檔名可填寫多個,如果不在要分發檔案的目錄下請新增路徑}  {分發到的伺服器ip或名稱:分發到的路徑}

例如:

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

 

 

6、在分發了dkcrw-tomcat-7.0.56檔案的節點上給檔案新增許可權

命令:

chmod -R 755 {需要給許可權的檔案等}

例如:

cd /opt/dkh

chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

 

 

7、啟動爬蟲介面

命令:

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

 

 

啟動介面之後再瀏覽器中輸入啟動介面節點的IP,來開啟爬蟲介面看是否啟動成功(賬號密碼是預設的)

 

 

 

8、啟動每個節點的dkcrw.jar

命令:

主節點執行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

 

從節點執行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

 

注意:可以先使用前臺啟動爬蟲,確定爬蟲沒錯誤。

前臺啟動命令java -jar dkcrw.jar master/slave