Nutch1.2 的安裝與使用
Nutch1.2的安裝與使用
1、nutch1.2下載
下載地址
2、nutch1.2目錄
bin:用於命令列執行的檔案;
conf:Nutch的配置檔案;
lib:一些執行所需要的jar檔案;
plugins:存放相應的外掛;
src:Nutch的所有原始檔;
webapps:web執行相關檔案;
nutch-1.2.war:war是Nutch所提供的基於Tomcat的應用程式包;
3、nutch工作流程
1、將起始URL集合注入到Nutch系統之中。
2、生成片段檔案,其中包括了將要抓取的URL地址。
3、根據URL地址在網際網路上抓取相應的內容。
4、解析所抓取的網頁,並分析其中的文字和資料。
5、根據新抓取的網頁中的URL集合來更新起始URL集合,並再次進行抓取。
6. 同時,對抓取到的網頁內容建立索引,生成索引檔案存放在系統之中。
4、ubuntu搭建nutch1.2環境
所用軟體: jdk-6u24-linux-i586.bin
apache-tomcat-7.0.27.tar.gz
apache-nutch-1.2-bin.tar.gz
5、ubuntu搭建nutch1.2環境
Jdk+tomcat+nutch安裝可以參考下面地址,這裡不在敘述。
6、使用Nutch1.2抓取資料
1、在nutch-1.2目錄下新建一個 weburls.txt 文字檔案,在裡面輸入要抓取
這裡抓取的是淘寶的網站。
2、修改crawl-utlfilter.txt中引數
進入 nutch-1.2/conf/crawl-urlfilter.txt
MY.DOMAIN.NAME 改為 taobao.com
改為:
3、修改 nutch-1.2/conf/nutch-site.xml檔案
在這裡面,設定了三個引數name、version、url。
4、執行網路蜘蛛,抓取網頁
進入nutch-1.2目錄執行命令:
bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2
-dir = localweb
-deptch = 2 下載深度為2
-topN = 100 下載符合條件的前100個頁面
-threads = 2 啟動的執行緒數目
蜘蛛執行時會輸出大量資料,抓取結束之後,可以發現localweb目錄被生成,裡面有幾個目錄。
、、、、、、
5、nutch-1.2/localweb下生產的五個資料夾
爬行結果目錄含有crawldb,index,indexes,linkdb,segment資料夾
Nutch的資料檔案
crawldb:爬行資料庫,用來儲存所要爬行的網址
linkdb: 連結資料庫,用來儲存每個網址的連結地址,包括源地址和連結地址
segments: 抓取的網址被作為一個單元,而一個segment就是一個單元。一個segment包括以下子目錄:
crawl_generate: 包含所抓取的網址列表
crawl_fetch: 包含每個抓取頁面的狀態
content: 包含每個抓取頁面的內容
parse_text: 包含每個抓取頁面的解析文字
parse_data: 包含每個頁面的外部連結和元資料
crawl_parse: 包含網址的外部連結地址,用於更新crawldb資料庫
indexes: 採用Lucene的格式建立索引集
index:最終生成的目錄
6、在tomcat中部署nutch 專案,把nutch根目錄下的nutch-1.2.war拷貝到tomcat下webapps中,稍會tomcat會對其自動解壓
7、修改tomcat/webapps/nutch-1.2/WEB-INF/classes/nutch-site.xml 檔案
8、修改tomcat目錄下的server.xml檔案
9、重啟tomcat,在位址列輸入:localhost:8080/nutch-1.2
10、輸入 教育,顯示如下
再測試一個,輸入 要啥自行車,顯示如下:
至此,jdk1.6+tomcat7+nutch1.2安裝配置完畢。
相關推薦
Hadoop2.7.2安裝與叢集搭建
1.環境準備 jdk需要1.7以上版本64位. 建立hadoop使用者. 在hadoop使用者目錄下解壓安裝包hadoop-2.7.2.tar.gz 2.配置免密碼登入 各節點分別執行 生成公鑰和私鑰:ssh-keygen -t rsa 四次enter. 將公鑰新增進公鑰庫:cat
Windows7 64位機上Emgu CV2 4 2安裝與配置
分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!  
[原創]X-HDL 4.2安裝與使用
由於涉及到VHDL工程,但實際工作中,用Verilog更多些,因此安裝X-HDL進行轉換,安裝步驟與使用如下: X-HDL進行破解,破解如下: 安裝完畢後,開啟一個帶轉換的檔案,進行如下操作: 連結:https://pan.baidu.com/s/
【Nginx】CentOS7.2安裝與啟動Nginx
Nginx應該算是後臺開發必備技能之一了,所以現在想花點時間學習瞭解一下先。 文章的安裝步驟其實就是安裝Nginx官網文件一步一步往下走的,如果喜歡閱讀英文原版或者你的系統並不是CentOS的可以直接移步:Installing nginx 一
Linux Centos5 Redis2.4.2安裝與配置
第一步:下載安裝編譯 #wgethttp://redis.googlecode.com/files/redis-2.4.2.tar.gz #tar zxvf redis-2.4.2.tar.gz #cd redis-2.4.2 #make #make install #
WebStorm2017.2.2安裝與啟用
主要是WebStorm的安裝與啟用以及WeX5開發工具的連線 連結: WebStorm官網下載連結:http://www.jetbrains.com/webstorm/download/#section=windows WebStorm漢化連結:https://p
Sonar6.0基於centos7.2安裝與使用(一)
Sonar是一個用於程式碼質量管理的開源平臺,用於管理原始碼的質量,可以從多個維度檢測程式碼質量 ,通過外掛形式,可以支援包括java,C#,C/C++,PL/SQL,Cobol,JavaScrip,Groovy等等二十幾種程式語言的程式碼質量管理與檢測。 Son
redhat7.2安裝與配置git
git的安裝 搭建本地yum倉庫或者使用網路yum倉庫; yum安裝git軟體 [root@foundation16 ~]# yum install git -y git的配置 linux作業系統的配置 [[email p
Nutch1.2 的安裝與使用
Nutch1.2的安裝與使用 1、nutch1.2下載 下載地址 2、nutch1.2目錄 bin:用於命令列執行的檔案; conf:Nutch的配置檔案; lib:一些執行所需要的jar檔案; plugins:存放相應的外掛; src:Nutch的所有原始檔;
【Redis】2、CentOS 7 上安裝 redis3.2.3安裝與配置
sync 倉庫 ace /var/ 發現 wan sudo base str 一、redis源碼安裝 【更正】現在最新穩定的版本已經到了3.2.8 截至到2016.8.11,redis最新穩定版本為3.2.3.本篇文章我們就以此版本為基礎,進行相關的講解。 下載redis源
[大數據]-Elasticsearch5.3.1+Kibana5.3.1從單機到分布式的安裝與使用<2>
amp fault hang 終端 bject pre 定義 地理 類型 前言:上篇[大數據]-Elasticsearch5.3.1+Kibana5.3.1從單機到分布式的安裝與使用<1>中介紹了ES ,Kibana的單機到分布式的安裝,這裏主要是介紹Elast
Redis 3.2.8 安裝與配置
blog 裝包 ase dir edi useradd nging 執行文件 make 在本章中,您將了解和學習Redis的環境安裝設置。 一、RedHat 6.0 自定義安裝 1、創建redis用戶 Redis 默認的安裝路徑是/usr/local/redis,並且
TortoiseSVN 1.9.5安裝 與 Eclipse4.4.2及以上版本中安裝SVN插件
new port 作用 nbsp fin 1.8 detail net .net 引自: http://blog.csdn.net/chenchunlin526/article/details/54631458 TortoiseSVN 1.9.5安裝 與 Eclipse4
Linux系統Oracle 12cR2 RAC集群安裝與維護管理(12.2)專題
oracle教程 oracle培訓 oracle數據庫教程 oracle工程師培訓 oracle數據庫培訓 風哥Linux系統Oracle 12cR2 RAC集群安裝與維護管理(12.2)專題包括內容:Oracle數據庫12cR2(項目實戰之一):在Windows上安裝Oracle12.2
手動配置wamp環境(2)--MySQL安裝與基本操作
密碼 環境 rdb amp tro 啟動 nal margin alt MySQL數據庫簡介 MySQL是一個關系型數據庫管理系統,由瑞典MySQL AB 公司開發,目前屬於 Oracle 旗下產品。MySQL 最流行的關系型數據庫管理系統,在 WEB 應用方面MySQL
Cobbler 2.x安裝與配置
centos7 ejs config sync uic mil 自動安裝腳本 file loading 軟件環境 Centos7.3 Cobbler 2.8.1 1、下載、編譯和安裝 創建自動安裝腳本cobbler-install.sh #!/bin/bash # Fi
Centos7二進制安裝與卸載mariadb最新版10.2.8
二進制 centos7 mariadb 實驗一:Centos7二進制安裝mariadb最新版10.2.81、查詢系統是否安裝mariadbrpm -qa mariadb*2、創建系統用戶mysql,並指定其家目錄為/app/mysqldbgetent passwd mysql 查詢
Spark 2.2.0 安裝與配置
mem p s template .sh org uri 文件 圖片 with 下載Spark 解壓並移動到/software目錄: tar -zxvf spark-2.2.0-bin-without-hadoop.tgz mv spark-2.2.0-bin-withou
arcgis10.2 的安裝與離線發布地圖
api fill 正式 chinese 授權 AI 第一步 就是 log 一、ArcGIS for Desktop安裝 ArcGIS安裝 方法/步驟1:LicenseManager安裝 1.首先要下載Arcgis 10.2軟件,很大大約有4個多G。下載後可以用虛擬光驅,
ArcGIS DeskTop 10.2 的安裝與破解
arcgis src txt文件 cmd IE 正式 套件 ID AC ArcGIS DeskTop 10.2套件作為一組常用的ArcGIS軟件為我們提供了對地圖原始數據進行加工以及各種操作,通過這組軟件我們能夠很好地定制我們最終的地圖樣式,但是更多的時候我們需要對這組