Heritrix 1.14.3 執行環境配置
heritrix好像已經有3.0的版本了,但是sourceforge上還是給1.14.3的下載連結,3.0版本的弄不出來,目錄結構改動太大了,連heritrix.properties都找不到了,還是用1.14.3來做爬蟲吧。
1、下載heritrix-1.14.3-src.zip和heritrix-1.14.3.zip兩個壓縮包
2、在Eclipse下新建Java專案,取名Heritrix-1.14.3
3、複製heritrix-1.14.3-src包下面src/java資料夾下org、com、st三個資料夾到專案根目錄
4、複製heritrix-1.14.3-src包下src下resources資料夾到專案根目錄
5、複製heritrix-1.14.3-src包下conf到專案根目錄
6、複製heritrix-1.14.3-src包下lib資料夾到專案根目錄
7、複製heritrix-1.14.3包下webapps資料夾到專案根目錄
8、修改專案conf下heritrix.properties檔案
@[email protected] 改為 1.14.3
heritrix.cmdline.admin = 改為 heritrix.cmdline.admin = username:password(使用者名稱:密碼)
heritrix.cmdline.port = 改為 heritrix.cmdline.port = 8080
9、將lib目錄下的所有.jar檔案新增到classpath
10、/src/org.archive.crawler包下Heritrix.java會報錯,原因是引用了sun.net.www.protocol.file.FileURLConnection這個受保護包下的類,設定eclipse對引用限制包只警告。
在preference->java->complier->errors/warning->deprecated and restricted API把 Forbidden reference 的Error改成warning
11、在專案/src/org.archive.crawler包下Heritrix.java上點選右鍵選執行方式->執行配置->classpath->點選右邊的ADVANCED->ADD FOLDER->選擇根目錄下的conf->RUN
控制檯出現一下資訊說明已成功.
12:18:12.703 EVENT Starting Jetty/4.2.23
12:18:12.937 EVENT Started WebApplicationContext[/,Heritrix Console]
12:18:13.062 EVENT Started SocketListener on 127.0.0.1:8090
12:18:13.062 EVENT Started
Heritrix version: 1.14.3
這時你可以開啟瀏覽器,輸入http://localhost:8090或http://localhost:8080
輸入剛才設的使用者名稱和密碼就可以登入Heritrix