1. 程式人生 > >Ubuntu環境下搭建nutch環境

Ubuntu環境下搭建nutch環境

作業系統:Ubuntu 16.04 LTS

nutch版本:2.2.1

配置nutch之前,要先配置ant,不會的可以看我的另一篇文章UBUNTU環境配置ANT

然後去nutch官網下載nutch,不過2.3.1的版本編譯時有問題,切換maven2庫也沒用,會一直卡在以下介面:

[email protected]:/opt/apache-nutch-2.3.1# ant runtime
Buildfile: /opt/apache-nutch-2.3.1/build.xml
ivy-probe-antlib:
ivy-download:
ivy-download-unchecked:
ivy-init-antlib:
ivy-init:
init:
    [mkdir] Created dir: /opt/apache-nutch-2.3.1/build
    [mkdir] Created dir: /opt/apache-nutch-2.3.1/build/classes
    [mkdir] Created dir: /opt/apache-nutch-2.3.1/build/release
    [mkdir] Created dir: /opt/apache-nutch-2.3.1/build/test
    [mkdir] Created dir: /opt/apache-nutch-2.3.1/build/test/classes

clean-lib:

resolve-default:
[ivy:resolve] :: Apache Ivy 2.3.0 - 20130110142753 :: http://ant.apache.org/ivy/ ::
[ivy:resolve] :: loading settings :: file = /opt/apache-nutch-2.3.1/ivy/ivysettings.xml
於是我放棄了,決定採用nutch2.2.1版本進行安裝,nutch2.2.1下載地址:http://archive.apache.org/dist/nutch/2.2.1/

Ubuntu環境下的firefox預設下載儲存路徑為~/Downloads

1、用命令cd ~/Downloads切換路徑,然後使用tar -xvf apache-nutch-2.2.1-src-tar-gz解壓檔案

然後移動到/opt目錄下,用命令sudo mv apache-nutch-2.2.1 /opt/移動到/opt資料夾下

2、配置nutch對mysql的支援,修改 ${NUTCH_HOME}/ivy/ivy.xml檔案

先取消以下行的註釋

<dependency org=”mysql” name=”mysql-connector-java” rev=”5.1.18″ conf=”*->default”/>

然後修改以下行,從預設的

<dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"/>

改成

<dependency org="org.apache.gora" name="gora-core" rev="0.2.1" conf="*->default"/>

最後取消掉以下行的註釋

<dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />

3、資料庫連線配置編輯 ${NUTCH_HOME}/conf/gora.properties檔案,註釋掉預設的資料庫連線配置,同時新增以下配置內容:

###############################
# Default MySQL properties    #
###############################
gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true
gora.sqlstore.jdbc.user=xxxx(MySQL使用者名稱)
gora.sqlstore.jdbc.password=xxxx(MySQL密碼)

4、資料表對映配置

修改 ${NUTCH_HOME}/conf/gora-sql-mapping.xml 檔案

將primarykey 的長度從512修改成767,即 <primarykey column=”id” length=”767″/>

5、修改nutch-site.xml配置檔案

可直接將nutch-default.xml儲存為nutch-site.xml,使用命令sudo mv nutch-default-xml nutch-size.xml

然後sudo gedit nutch-site,在末尾的</configuration>前新增以下程式碼

<property>
  <name>http.agent.name</name>
  <value>YourNutchSpider</value>
</property>
<property>
  <name>http.accept.language</name>
  <value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value>
  <description>Value of the Accept-Language request header field.
   This allows selecting non-English language as default one to retrieve.
   It is a useful setting for search engines build for certain national group.
  </description>
</property>
<property>
  <name>storage.data.store.class</name>
  <value>org.apache.gora.sql.store.SqlStore</value>
  <description>The Gora DataStore class for storing and retrieving data.
    Currently the following stores are available:.
  </description>
</property> 
<property>
  <name>parser.character.encoding.default</name>
  <value>utf-8</value>
  <description>The character encoding to fall back to when no other information
   is available</description>
 </property>
<property>
  <name>generate.batch.id</name>
  <value>*</value>
</property>

6、使用ant編譯

切換到NUTCH目錄

cd ${NUTCH_HOME}
ant runtime

可能遇到的問題:

1)許可權不足,建立資料夾例如build資料夾失敗,使用命令sudo -i切換到root許可權再進行ant編譯

2)提示:

Trying to override old definition of task javac [taskdef] 
      Could not load definitions from resource org/sonar/ant/antlib.xml. It could not be found.
先下載sonar-ant-task-2.2.jar,將其拷貝到 ${NUTCH_HOME}/lib 目錄下面

然後使用命令sudo gedit /${NUTCH_HOME}/build.xml

通過ctrl+F開啟搜尋功能,輸入antlib:org,sonar.ant定位到以下程式碼,新增紅色部分的程式碼即可

<span style="color:#4b4b4b;"><!-- Define the Sonar task if this hasn't been done in a common script -->
 <taskdef url="antlib:org.sonar.ant" resource="org/sonar/ant/antlib.xml">
  <classpath path="${ant.library.dir}" />
  <classpath path="${mysql.library.dir}" />
  </span><span style="color:#ff0000;"><classpath><fileset dir="lib/" includes="sonar*.jar" /></classpath></span><span style="color:#4b4b4b;">
 </taskdef></span>

3)build failed,提示如

[ivy:resolve]         :: com.google.code.findbugs#jsr305;1.3.9!jsr305.jar
[ivy:resolve]         ::::::::::::::::::::::::::::::::::::::::::::::
[ivy:resolve] 
[ivy:resolve] :: USE VERBOSE OR DEBUG MESSAGE LEVEL FOR MORE DETAILS

BUILD FAILED
/opt/apache-nutch-2.2.1/build.xml:444: impossible to resolve dependencies:
    resolve failed - see output for details

或者是其他的依賴性問題導致BUILD FAILED的,可通過修改maven中央庫地址來解決

sudo gedit ${NUTCH_HOME}/ivy/ivysettings.xml,找到以下程式碼
<property name="repo.maven.org"
    value="http://repo1.maven.org/maven2/"
    override="false"/>

將maven中央庫地址 http://repo1.maven.org/maven2/  替換成國內OSC提供的映象:http://maven.oschina.net/content/groups/public/

4)卡在以下介面

resolve-default:
[ivy:resolve] :: Apache Ivy 2.3.0 - 20130110142753 :: http://ant.apache.org/ivy/ ::
[ivy:resolve] :: loading settings :: file = /opt/apache-nutch-2.3.1/ivy/ivysettings.xml
解決方案:耐心等待,載入需要時間,如果超過10分鐘沒反應就放棄吧,可以換個maven(見問題3)。

一般編譯時間為半個小時左右!上個我成功的介面截圖大笑



7、網站抓取測試

7.1 設定抓取網站

cd ${NUTCH_HOME}/runtime/local
sudo mkdir -p urls
cd urls
sudo gedit seed.txt

在seed.txt輸入一個網站,例如http://blog.csdn.net/u010317005

然後輸入冒號:wq儲存

7.2 執行爬蟲操作

bin/nutch crawl urls -depth 3 -topN 5

相關推薦

Ubuntu環境搭建nutch環境

作業系統:Ubuntu 16.04 LTS nutch版本:2.2.1 配置nutch之前,要先配置ant,不會的可以看我的另一篇文章UBUNTU環境配置ANT 然後去nutch官網下載nutch,不過2.3.1的版本編譯時有問題,切換maven2庫也沒用,會一直卡在以下

Ubuntu 18.04環境搭建SSR(shadowsocksR)詳細流程

Ubuntu 18.04環境下搭建SSR(shadowsocksR)詳細流程 配置SSR客戶端 注意 Solution: 更方便的處理方法,寫個指令碼: 配置SSR客戶端 Shadowsocks與Shadow

Ubuntu 命令環境搭建以太坊私有鏈節點

前言:本文使用以太坊解壓版搭建,桌面環境則可以直接使用瀏覽器進行下載,無需使用 Winscp 進行傳輸 1.搭建以太坊私有鏈節點 下載Geth ,下載地址: https://geth.ethereum.org/downloads/ 使用 Winscp 傳輸到 Ubunt

ubuntu搭建hadoop環境(單機配置)

電腦系統版本:windows7(32位) VMware版本:VMware10 1、安裝ubuntu 版本:16.04.1-desktop-i386 安裝完之後,需要重啟系統,重啟時可能會出現 piix4_smbus : Host SMBus controller

在阿里雲Ubuntu環境搭建ftp

因為想向伺服器傳送一些檔案,最近又正好學到ftp,就想說練練手。沒想到,又是一個坑!!!!好想哭! 1.在伺服器上下載ftp apt-get install vsftpd 2.修改配置檔案 vi /etc/vsftpd.conf 2.1 解開註釋 write_en

ubuntu環境java開發環境搭建

1.下載java安裝包。和eclipse安裝包 2.分別解壓安裝包(直接點開提取就行) 3.配置java的環境變數 輸入sudo gedit /etc/profile 在檔案末尾新增一下內容 #set java environment JAVA_HOME=/home/jer

ubuntu搭建vim環境

首先要提的一點是, vim不是一個普通的文字編輯工具, 我們可以為它新增各種外掛,使之無比強悍好用!!! 現在, 在ubuntu環境下, 我們先通過 sudo apt-get install vim  安裝vim,即可自動安裝好。 然後, 在/etc/vim資料夾目錄下 ,

Ubuntu 16.04 搭建 LNMP環境安裝php7.1的小坑

然後我參考他安裝php 安裝成功後,再去訪問127.0.0.1的時候,呈現的介面居然是apache的,從頭開始我就沒有安裝apache, 後來仔細看來下:sudo apt-get instal

ubuntu系統搭建Review Board程式碼審查環境

Software and hardware environment: ubuntu-14.04.5-desktop-amd64.iso VirtualBox-5.2.4-119785-Win.exe Installing Review

ubuntu 16.04 搭建LNMP環境

引言LNMP(也有人稱為LEMP)指的是Linux系統下Nginx+MySQL+PHP這種網站伺服器架構搭配,集效能、穩定性、可擴充套件性於一體,是目前流行的伺服器環境,本文將介紹如何在Ubuntu 14.04 上搭建LNMP環境,在進行下文操作前,請確保你的Ubuntu是一

ubuntu環境搭建python3開發環境

第一件事當然是安裝python,有兩種方法。 一是下載安裝包,自己解壓縮安裝包編譯安裝。二是使用命令列的方式自動搭建環境。 我推薦使用第一種方式,自己解壓縮安裝包進行編譯安裝。可以熟悉編譯安裝這麼一個過程的同時能夠知道需要安裝包時可以去哪裡下載(非linux環境下時)。  

Ubuntu搭建Kinect環境

參考網址:http://pat-site.herokuapp.com/wiki/index.php?title=Kinect_on_Linux#SensorKinect 話說這個網站上面還有OpenGL教程。 Step1:安裝OpenNI sudo apt-get ins

Ubuntu系統---Android Studio-------------環境搭建(詳細)

本文將給大家介紹一下Android Studio環境如何搭建? 剛開始接觸Android開發,首先需要為自己的電腦安裝java JDK,詳細的方法以後再為大家補充。 寫在前面: 1、Android studio對JDK版本有要求,一般是7以上的版本,下載之前,確認自己電

Linux,Ubuntu 環境的LAMP環境搭建

搭建PHP開發環境 安裝apache2 $ apt-get install apache2 開啟http://localhost,如果能看到歡迎頁(下圖所示),說明apache2安裝成功。 安裝mysql5.6 $

ubuntu搭建svn環境及其使用

ubuntu下搭建svn環境        軟體下載安裝:            我選用的是apt-get install subversion   作業系統自帶的包管理工具安裝,採用此法安裝的軟體方便管理,可以用dpkg -L subversion命令檢視其所在安裝目錄

在Windows Server 2008 R2搭建jsp環境(三)-Tomcat的下載安裝

流行 ext 協議 解壓縮 需要 繼續 bsp shutdown 電腦系統 1.百度搜索“Tomcat官網”,點擊有標誌的官網進入,準備下載官方正版Tomcat。 2.進入Tomcat官網之後,在左邊我們看到,Tomcat的有6,7,8這三個最流行的版本,我們可以點

Solr6.0與Jetty、Tomcat在Win環境搭建/部署

rt.jar Language 管理 tom 增強 .net jet 還在 摘要 摘要: Solr6的新特性包括增強的edismax,對SQL更好的支持——並行SQL、JDBC驅動、更多的SQL語法支持等,並且在Solr6發布以後,Solr5還在持續更新,對於想嘗鮮Solr

Ubuntu 16.04搭建lamp環境

tex 數據 ttext 搭建lamp 6.0 執行 重啟命令 顯示 訪問 先裝Apache2 1:apt-get install apache2 然後安裝php7.0 2:apt-get install php7.0 安裝PHP7.0之後先別安裝數據庫,先cd /etc/

Eclipse開發環境搭建Maven

-1 mage cal 配置文件 pub 添加 apache local 打開 (一)開發環境   Eclipse Mars2(4.5.2) + Maven 3.5.0 (二)配置步驟   1.首先,需要將Maven環境配置好,maven下載地址:http://maven

windows環境搭建redis集群

官方 replicas .com hub con https 環境變量 啟動 conf Redis、Ruby語言運行環境、Redis的Ruby驅動redis-xxxx.gem、創建Redis集群的工具redis-trib.rb(註意:Redis集群需要至少3個以上節點,低於