1. 程式人生 > >爬蟲 Heritrix 學習筆記 —— Heritrix安裝與簡單配置

爬蟲 Heritrix 學習筆記 —— Heritrix安裝與簡單配置

Heritrix安裝與簡單配置       

        由於專案需要,需要利用爬蟲在網際網路上爬取資料,在 Nutch 與 Heritrix 之間選擇了 Heritrix,前段時間自己寫了一個爬蟲,效率太低了,不過對於爬蟲的基本情況已經心中有算,現在利用別人寫的爬蟲,而且是經過考驗的,自然效率會比自己寫的高很多。至於 Nutch 與 Heritrix 的比較就暫不討論了。

第一步:選擇版本並下載(http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20(heritrix%201.x)/)。

            目前 git上已經有 3 以上的版本了,考慮到目前只是學習,所以先拿官網上最新的1.14版本下載安裝,下面是我下載的檔案


$ ll
總用量 28676
drwxrwxr-x  2 clebeg clebeg     4096  3月 29 14:59 ./
drwxr-xr-x 15 clebeg clebeg     4096  3月 26 09:44 ../
-rw-r--r--  1 clebeg clebeg 10443109  3月 23 09:31 heritrix-1.14.4-src.tar.gz  //原檔案
-rw-rw-r--  1 clebeg clebeg 18835284  3月 23 09:06 heritrix-1.14.4.tar.gz      //二進位制檔案

第二步:解壓二進位制檔案到指定目錄

[email protected]:~/mydownload/spider$ tar -xzvf heritrix-1.14.4.tar.gz -C yourdir 
注意:-C 引數後的路徑必須存在,否則無法解壓
$ ll
總用量 1524
drwxr-xr-x 7 clebeg clebeg    4096  5月  6  2010 ./
drwxrwxr-x 3 clebeg clebeg    4096  3月 29 15:10 ../
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 bin/
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 conf/
drwxr-xr-x 8 clebeg clebeg    4096  3月 29 15:10 docs/
-rw-r--r-- 1 clebeg clebeg 1497036  5月  6  2010 heritrix-1.14.4.jar
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 lib/
-rw-r--r-- 1 clebeg clebeg   26985  5月  6  2010 LICENSE.txt
-rw-r--r-- 1 clebeg clebeg    2664  5月  6  2010 README.txt
drwxr-xr-x 2 clebeg clebeg    4096  3月 29 15:10 webapps/

第三步:配置爬蟲 Heritrix

1)為了方便操作爬蟲,首先設定環境變數,修改 ~/.bashrc,增加如下環境變數#set Heritrix home

HERITRIX_HOME=/home/clebeg/software/Heritrix/heritrix-1.14.4
PATH=$HERITRIX_HOME/bin:$PATH
CLASSPATH=$HERITRIX_HOME/lib/*:$CLASSPATH
export HERITRIX_HOME
export PATH

export CLASSPATH

2)先解壓heritrix-1.14.4.jar$ jar -xf heritrix-1.14.4.jar

3)解壓之後的目錄結構

drwxrwxr-x 8 clebeg clebeg 4096 3月 29 15:30 ./

drwxr-xr-x 14 clebeg clebeg 4096  3月 29 15:16 ../

-rw-rw-r--  1 clebeg clebeg  8419  5月  6  2010 arcMetaheaderBody.xsl

-rw-rw-r--  1 clebeg clebeg 58340  5月  6  2010 effective_tld_names.dat

-rw-rw-r--  1 clebeg clebeg 10147  5月  6  2010 heritrix.properties

-rw-rw-r--  1 clebeg clebeg  1078  5月  6  2010 jndi.propertiesd

rwxrwxr-x  2 clebeg clebeg  4096  5月  6  2010 META-INF/

drwxrwxr-x  2 clebeg clebeg  4096  5月  6  2010 modules/

drwxrwxr-x  4 clebeg clebeg  4096  5月  6  2010 org/

drwxrwxr-x  3 clebeg clebeg  4096  5月  6  2010 profiles/

drwxrwxr-x  2 clebeg clebeg  4096  5月  6  2010 selftest/

drwxrwxr-x  3 clebeg clebeg  4096  5月  6  2010 st/

4)然後拷貝解壓之後的資料夾profiles/default 下面的 order.xml  seeds.txt 到爬蟲第一層目錄的conf/下面$cp profiles/default/* $HERITRIX_HOME/conf

5)用 vim 開啟 $HERITRIX_HOME/conf/heritrix.properties(這是web介面登入的賬戶名與密碼)修改 heritrix.cmdline.admin = username:password

6)複製 $HERITRIX_HOME/conf 下面的 jmxremote.password.template 到 $HERITRIX 下面,然後改名字為 jmxremote.password, 用 vim 開啟此檔案,將 monitoRole 與 controlRole 後面的大寫 PASSWORD 全部改成管理員密碼。

7)啟動 Heritrix: heritrix --admin=username:password 如果無法啟動那麼就將 $HERITRIX/bin 下面的檔案賦予執行的許可權 

第四步:啟動介面展示