執行除錯nutch的問題處理及注意事項

阿新 • • 發佈：2019-02-09

匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classPath中

右鍵conf――>Build PathàUse as Source Folder

在執行時如發生異常：x point org.apache.nutch.net.URLNormalizer not found.

注：這是配置造成的，是外掛目錄的配置沒有正確，修改conf/nutch-default.xml檔案
<property>
<name>plugin.folders</name>
<value>./src/plugin</value><!—修改部分-->
...

在執行時如發生異常：Fetcher: No agents listed in 'http.agent.name' property.

檢查conf配置目錄中的nutch-default.xml和nutch-site.xml檔案中是否存在鍵：http.agent.name，
或存在鍵：http.agent.name，但其值為空，一定要定義此鍵值，值可以任意,自已想名字吧。如：
<property>
<name>http.agent.name</name>
<value>nutch16</value>
</property>

//新增想抓取的URL

1、建立待掃描的資料夾，然後在其中新建一個檔案(檔名不限)，在該檔案中寫入想抓取的網站URL，每行一個，如：http://www.163.com/

2、conf/crawl-urlfilter.txt

#accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*163.com/ ---寫入想抓取的網站正則表示式

然後即可在eclipse中進行除錯或使用nutch進行爬行

進入nutch目錄

$ sh ./bin/nutch crawl urls -dir mydir -depth 2 -threads 4 -topN 50

crawl：通知nutch.jar，執行crawl的main方法。

urls：存放需要爬行的url.txt檔案的目錄

-dir mydir 爬行後文件儲存的位置

-depth 2：爬行次數，或者成為深度，不過還是覺得次數更貼切，建議測試時改為1。

-threads 指定併發的程序這是設定為 4
-topN 50：一個網站儲存的最大頁面數。

注意爬網的時候mydir目錄不能存在，要不然會出錯

執行除錯nutch的問題處理及注意事項

匯入nutch專案時其conf檔案下的所有配置檔案需要加入到classPath中右鍵conf――>Build PathàUse as Source Folder 在執行時如發生異常：x point org.apache.nutch.net.URLNormaliz

使用chrome://inspect/#devices除錯時常見問題及注意事項

問題一：chrome://inspect/#devices inspect 空白解決方案：使用代理工具+配置google瀏覽器進行翻牆 1.下載V2ray.rar並開啟解壓後的資料夾，執行v2ray.exe； 2.瀏覽器安裝SwitchyOmega 外掛： 1）chrome點“更多

maven執行ssh三大框架+oracle資料庫的一般步驟及注意事項

maven執行ssh框架一般步驟：（一）建立父工程（maven project）ssh_parent（pom） 1、配置pom.xml。 2、maven的倉庫有三種：本地倉庫、私服、中央倉庫，程式執

sql查詢語句的書寫順序、執行順序及注意事項（優化策略）

查詢中用到的關鍵詞主要由6個，分別是：select、from、where、group by、having、order by書寫順序：順序與上一行一致。不過其中select和from為必須，其他關鍵詞是可選執行順序：from、where、group by、having、sele

cocos2d-x遊戲引擎核心之多執行緒分析及注意事項

一、多執行緒原理（1）單執行緒的尷尬　　重新回顧下 Cocos2d-x 的並行機制。引擎內部實現了一個龐大的主迴圈，在每幀之間更新各個精靈的狀態、執行動作、呼叫定時函式等，這些操作之間可以保證嚴格獨立，互不干擾。不得不說，這是一個非常巧妙的機制，它

處理AIX檔案系統空間不足常用命令及注意事項

三個確定：<1>確定所要清理的檔案型別：（1）建議只清理LOG等日誌檔案，對於需清理檔案採用清空或移動的策略，擴充檔案系統則是最後考慮的方法。（2）對於tar,gz等型別的檔案，需確認檔案用途後再進行移動（3）系統檔案勿做任何操作<2>確定檔案

PHP執行python指令碼的passthru()函式使用及注意事項總結

PHP中執行python指令碼的函式，我用的是passthru(): passthru() 允許您執行外部程式，並在螢幕上顯示結果。不需要使用 echo 或 return 來檢視結果；它們會顯示在瀏覽器上。 PHP執行python指令碼的用法： $path="python

（Python學習筆記）Python程式碼轉換為.exe可執行程式過程及注意事項

作者Python版本為3.6 一. pyInstaller安裝配置 1，開啟網址：pyInstalller下載網址；如圖： 2，下載並解壓後目錄如下：(該檔案版本為3.2.1版本，因後步驟需要加入-bac以示區別)； 3，還需要下載一個pywin32，pywi

【VUE】git命令列程式碼提交流程及注意事項

本篇為我在提交程式碼的過程中使用過的命令僅做記錄參考 git命令還有很多其他功能可自行百度命令git add （1）git add . 提交全部修改檔案（2）git add +檔名提交單個檔案命令 git commit -m '描述’ eg： git commi

重灌系統後，重新安裝ORACLE加環境變數配置、客戶端PL/SQL的安裝過程，及注意事項（避免再次踩坑）

（1）首先了解什麼是OERACLE及Oracle與PL/SQL是什麼關係： ORACLE是資料庫，有客戶端和伺服器； PLSQL Developer只是第三方工具，服務於ORACLE，類似的工具還有Toad，sqlplus，sql developer等等；安裝PLSQL Developer

【C++】向量（vector）基本使用方法及注意事項

介紹：向量（Vector）是一個封裝了動態大小陣列的順序容器（Sequence Container）。跟任意其它型別容器一樣，它能夠存放各種型別的物件。可以簡單的認為，向量是一個能夠存放任意型別的動態陣列。特點： 1.順序序列順序容器中的元素按照嚴格的線性順序排序。可以通過元素

Windows下RabbitMQ安裝及注意事項

Windows下RabbitMQ安裝及注意事項簡介背景 1. RabbitMQ是一個由erlang開發的AMQP(Advanved Message Queue)的開源實現。 RabbitMQ是實現AMQP（高階訊息佇列協議）的訊

XV6環境搭建及注意事項

Ubuntu16.04SLT 64位工具鏈 sudo apt-get install gcc-multilib libsdl1.2-dev, libtool-bin, libglib2.0-dev, libz-dev, and libpixman-1-dev. 下載

仙人劍花怎麼養仙人劍花的養殖方法及注意事項

劍花也稱霸王花、七星劍花、龍骨花，為仙人掌科量天尺屬植物量天尺的花。夏、秋間採收淨花，縱向切開（基部相連），略蒸後，晒乾。量天尺又名：龍骨花（海南保亭），霸王鞭（海南三亞，廣東肇慶），三角柱、三稜箭（北京俗稱）。很多朋友不知道如何養殖仙人劍花，下面來介紹一下。從生長環境溫度方面來說

阿里雲備案幕布申請郵寄及注意事項

阿里雲備案需要幕布（貌似個別地區，例如魔都是不需要幕布的），阿里雲免費提供幕布，很多使用者不清楚阿里雲幕布去哪申請，阿里雲惠網分享阿里雲備案關於幕布相關問題：一：阿里雲幕布長啥樣？二：備案幕布申請：阿里雲備案系統即可申請幕布，首先需要先完成備案初審，初審後登入阿里雲備案系統，辦理網站

CSS變數實用指南及注意事項

近年來，一些動態特性已經開始成為 CSS 語言本身的一部分。 CSS變數 – 官方的術語為 “自定義屬性” – 已經已經加入規範並且具有很好的瀏覽器支援，而 CSS mixins 目前正在開發中。在本文中，你將瞭解如何開始將CSS變數整合到CSS開發工作流程中，讓你的樣式表更好維護，且減少重複。讓我

MySQL索引的使用及注意事項

索引是儲存引擎用於快速找到記錄的一種資料結構。索引優化應該是對查詢效能優化最有效的手段了。索引能夠輕易將查詢效能提高几個數量級，"最優"的索引有時比一個"好的"索引效能要好兩個數量級。索引可以包含一個（單列索引）或多個列（組合索引）的值。想要使用組合索引首先要了解一個原則：最左字首原則。如果索引包含多

Git- .gitignore匹配規則及注意事項

.gitignore檔案的匹配規則 Windows中可以通過echo 命令或者用Windows中的bash建立.gitignore檔案。其主要的匹配規則如下： *.a # 忽略所有 .a 結尾的檔案 !lib.a # 但 lib.a 除外 TODO # 僅僅

分享知識-快樂自己：Struts2（動態方法、動態結果、萬用字元、方法內部跳轉、action跳轉、OGNL 的使用及注意事項）

這裡主要以案例演示：涵蓋以下知識點 1、動態方法呼叫：使用關鍵符號 ! 進行操作例如：/名稱空間 ! 方法名 2、動態結果集：就是說，通過後臺返回的結果 ${} 獲取，重定向到符合預期的頁面。 3、萬能萬用字元：*_* ：第一個 * 為類名、第二個 * 為方

iOS啟動頁尺寸及注意事項

執行環境：Xcode 7.2 OS X 10.11 1、點選LauchImage，在右側選擇需要支援的裝置及支援的螢幕方向 2、點選圖片的位

執行除錯nutch的問題處理及注意事項

相關推薦