1. 程式人生 > >Heritrix 1.14.3 執行環境配置

Heritrix 1.14.3 執行環境配置

heritrix好像已經有3.0的版本了,但是sourceforge上還是給1.14.3的下載連結,3.0版本的弄不出來,目錄結構改動太大了,連heritrix.properties都找不到了,還是用1.14.3來做爬蟲吧。

1、下載heritrix-1.14.3-src.zip和heritrix-1.14.3.zip兩個壓縮包

2、在Eclipse下新建Java專案,取名Heritrix-1.14.3

3、複製heritrix-1.14.3-src包下面src/java資料夾下org、com、st三個資料夾到專案根目錄

4、複製heritrix-1.14.3-src包下src下resources資料夾到專案根目錄

5、複製heritrix-1.14.3-src包下conf到專案根目錄

6、複製heritrix-1.14.3-src包下lib資料夾到專案根目錄

7、複製heritrix-1.14.3包下webapps資料夾到專案根目錄

8、修改專案conf下heritrix.properties檔案
       @[email protected] 改為 1.14.3
      heritrix.cmdline.admin = 改為 heritrix.cmdline.admin = username:password(使用者名稱:密碼)
      heritrix.cmdline.port = 改為 heritrix.cmdline.port = 8080

9、將lib目錄下的所有.jar檔案新增到classpath

10、/src/org.archive.crawler包下Heritrix.java會報錯,原因是引用了sun.net.www.protocol.file.FileURLConnection這個受保護包下的類,設定eclipse對引用限制包只警告。

在preference->java->complier->errors/warning->deprecated and restricted API
把 Forbidden reference 的Error改成warning

11、在專案/src/org.archive.crawler包下Heritrix.java上點選右鍵選執行方式->執行配置->classpath->點選右邊的ADVANCED->ADD FOLDER->選擇根目錄下的conf->RUN
控制檯出現一下資訊說明已成功.
12:18:12.703 EVENT Starting Jetty/4.2.23
12:18:12.937 EVENT Started WebApplicationContext[/,Heritrix Console]
12:18:13.062 EVENT Started SocketListener on 127.0.0.1:8090
12:18:13.062 EVENT Started

[email protected]
Heritrix version: 1.14.3


這時你可以開啟瀏覽器,輸入http://localhost:8090或http://localhost:8080
輸入剛才設的使用者名稱和密碼就可以登入Heritrix