1. 程式人生 > >Nutch2.3.1版本選擇

Nutch2.3.1版本選擇

1. Nutch主頁:http://nutch.apache.org/#

2. Nutch有1.X和2.X兩個版本

(1)1.X依賴於Hadoop,適合做分散式。目前最高版本為1.13

(2)2.X與1.X最關鍵的不同是引入了Gora,資料持久化不再侷限於某一種資料庫。目前最高版本為2.3.1

3. 以下為官方建議的2.3.1依賴

Apache Avro 1.7.6 
Apache Hadoop 1.2.1 and 2.5.2 
Apache HBase 0.98.8-hadoop2 (although also tested with 1.X) 

Apache Cassandra 2.0.2 
Apache Solr 4.10.3 
MongoDB 2.6.X 
Apache Accumlo 1.5.1 
Apache Spark 1.4.1


* 之前已經做過單機版的MongoDB,速度會變得越來越慢,所以這次打算搞Hadoop

apache各種工具的下載地址(apache的產品基本都能在裡面找到):http://archive.apache.org/dist/