爬蟲 Heritrix 學習筆記 —— Heritrix安裝與簡單配置
Heritrix安裝與簡單配置
由於專案需要,需要利用爬蟲在網際網路上爬取資料,在 Nutch 與 Heritrix 之間選擇了 Heritrix,前段時間自己寫了一個爬蟲,效率太低了,不過對於爬蟲的基本情況已經心中有算,現在利用別人寫的爬蟲,而且是經過考驗的,自然效率會比自己寫的高很多。至於 Nutch 與 Heritrix 的比較就暫不討論了。
第一步:選擇版本並下載(http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20(heritrix%201.x)/)。
目前 git上已經有 3 以上的版本了,考慮到目前只是學習,所以先拿官網上最新的1.14版本下載安裝,下面是我下載的檔案
$ ll
總用量 28676
drwxrwxr-x 2 clebeg clebeg 4096 3月 29 14:59 ./
drwxr-xr-x 15 clebeg clebeg 4096 3月 26 09:44 ../
-rw-r--r-- 1 clebeg clebeg 10443109 3月 23 09:31 heritrix-1.14.4-src.tar.gz //原檔案
-rw-rw-r-- 1 clebeg clebeg 18835284 3月 23 09:06 heritrix-1.14.4.tar.gz //二進位制檔案
第二步:解壓二進位制檔案到指定目錄
[email protected]:~/mydownload/spider$ tar -xzvf heritrix-1.14.4.tar.gz -C yourdir
注意:-C 引數後的路徑必須存在,否則無法解壓
$ ll 總用量 1524 drwxr-xr-x 7 clebeg clebeg 4096 5月 6 2010 ./ drwxrwxr-x 3 clebeg clebeg 4096 3月 29 15:10 ../ drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 bin/ drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 conf/ drwxr-xr-x 8 clebeg clebeg 4096 3月 29 15:10 docs/ -rw-r--r-- 1 clebeg clebeg 1497036 5月 6 2010 heritrix-1.14.4.jar drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 lib/ -rw-r--r-- 1 clebeg clebeg 26985 5月 6 2010 LICENSE.txt -rw-r--r-- 1 clebeg clebeg 2664 5月 6 2010 README.txt drwxr-xr-x 2 clebeg clebeg 4096 3月 29 15:10 webapps/
第三步:配置爬蟲 Heritrix
1)為了方便操作爬蟲,首先設定環境變數,修改 ~/.bashrc,增加如下環境變數#set Heritrix home
HERITRIX_HOME=/home/clebeg/software/Heritrix/heritrix-1.14.4PATH=$HERITRIX_HOME/bin:$PATH
CLASSPATH=$HERITRIX_HOME/lib/*:$CLASSPATH
export HERITRIX_HOME
export PATH
export CLASSPATH
2)先解壓heritrix-1.14.4.jar$ jar -xf heritrix-1.14.4.jar
3)解壓之後的目錄結構
drwxrwxr-x 8 clebeg clebeg 4096 3月 29 15:30 ./
drwxr-xr-x 14 clebeg clebeg 4096 3月 29 15:16 ../
-rw-rw-r-- 1 clebeg clebeg 8419 5月 6 2010 arcMetaheaderBody.xsl
-rw-rw-r-- 1 clebeg clebeg 58340 5月 6 2010 effective_tld_names.dat
-rw-rw-r-- 1 clebeg clebeg 10147 5月 6 2010 heritrix.properties
-rw-rw-r-- 1 clebeg clebeg 1078 5月 6 2010 jndi.propertiesd
rwxrwxr-x 2 clebeg clebeg 4096 5月 6 2010 META-INF/
drwxrwxr-x 2 clebeg clebeg 4096 5月 6 2010 modules/
drwxrwxr-x 4 clebeg clebeg 4096 5月 6 2010 org/
drwxrwxr-x 3 clebeg clebeg 4096 5月 6 2010 profiles/
drwxrwxr-x 2 clebeg clebeg 4096 5月 6 2010 selftest/
drwxrwxr-x 3 clebeg clebeg 4096 5月 6 2010 st/
4)然後拷貝解壓之後的資料夾profiles/default 下面的 order.xml seeds.txt 到爬蟲第一層目錄的conf/下面$cp profiles/default/* $HERITRIX_HOME/conf
5)用 vim 開啟 $HERITRIX_HOME/conf/heritrix.properties(這是web介面登入的賬戶名與密碼)修改 heritrix.cmdline.admin = username:password
6)複製 $HERITRIX_HOME/conf 下面的 jmxremote.password.template 到 $HERITRIX 下面,然後改名字為 jmxremote.password, 用 vim 開啟此檔案,將 monitoRole 與 controlRole 後面的大寫 PASSWORD 全部改成管理員密碼。
7)啟動 Heritrix: heritrix --admin=username:password 如果無法啟動那麼就將 $HERITRIX/bin 下面的檔案賦予執行的許可權
第四步:啟動介面展示