nutch solr系列之（二）nutch命令分析

阿新 • • 發佈：2019-02-04

1、$ ./nutch readdb crawlDir/crawldb/ -stats 此命令用來統計crawldb中連結的數量，以及fetch過的連結數量和未fetch過的連結數量 [email protected] /home/apache-nutch-1.9/bin $ ./nutch readdb crawlDir/crawldb/ -stats CrawlDb statistics start: crawlDir/crawldb/ Statistics for CrawlDb: crawlDir/crawldb/ TOTAL urls: 3568 retry 0: 3567 retry 1: 1 min score: 0.0 avg score: 8.7107625E-4 max score: 1.133 status 1 (db_unfetched): 2982 status 2 (db_fetched): 586 CrawlDb statistics: done 2

、$ ./nutch readdb crawlDir/crawldb/ -dump crawldb 此命令使用者匯出連結的資訊到crawldb資料夾中，裡面記錄了每個連結的詳細資訊 [email protected] /home/apache-nutch-1.9/bin $ ./nutch readdb crawlDir/crawldb/ -dump crawldb CrawlDb dump: starting CrawlDb db: crawlDir/crawldb/ CrawlDb dump: done 此命令用來分析某一個連結的資訊 [email protected] /home/apache-nutch-1.9/bin $ ./nutch readdb crawlDir/crawldb/ -url http://cs.fang.lianjia.com/ URL: http://cs.fang.lianjia.com/ Version: 7 Status: 2 (db_fetched) Fetch time: Tue Nov 14 21:37:39 CST 2017 Modified time: Thu Jan 01 08:00:00 CST 1970 Retries since fetch: 0 Retry interval: 2592000 seconds (30 days) Score: 1.1338482 Signature: dc19d8253ee5b3af82535b28e422d45a Metadata: _pst_=success(1), lastModified=0 _rs_=344 Content-Type=text/html 4

、$ ./nutch readlinkdb crawlDir/linkdb/ -dump linkdb 此命令用來匯出網頁所有的連結（這次實驗中沒有產生網頁的連結） [email protected] /home/apache-nutch-1.9/bin $ ./nutch readlinkdb crawlDir/linkdb/ -dump linkdb LinkDb dump: starting at 2017-10-17 20:05:22 LinkDb dump: db: crawlDir/linkdb/ LinkDb dump: finished at 2017-10-17 20:05:24, elapsed: 00:00:01 5

、$ ./nutch readseg -list -dir crawlDir/segments/ 此命令用來讀取segments的統計資訊 [email protected] /home/apache-nutch-1.9/bin $ ./nutch readseg -list -dir crawlDir/segments/ NAME GENERATED FETCHER START FETCHER END FETCHED PARSED 20171015213734 1 2017-10-15T21:37:39 2017-10-15T21:37:39 1 1 20171015213808 50 2017-10-15T21:38:14 2017-10-15T21:42:55 50 50 20171015214329 536 2017-10-15T21:43:35 2017-10-15T22:35:05 536 535 6、 $ ./nutch readseg -dump crawlDir/segments/20171015213734 segdb12 -locale zh_CN 或者$ ./nutch readseg -dump crawlDir/segments/20171015213734 segdb12 -locale zh_CN 引數可以省略此命令為將segments下面的內容匯出為純檔案（包含網頁內容）到資料夾segdb12 下（此次實驗中部分中文亂碼） [email protected] /home/apache-nutch-1.9/bin $ ./nutch readseg -dump crawlDir/segments/20171015213734 segdb12 -locale zh_CN SegmentReader: dump segment: crawlDir/segments/20171015213734 SegmentReader: done 通過這個可以看到segment檔案內容分為CrawlDatum、Content、ParseData、ParseText四部分 CrawlDatum：儲存的是抓取的基本資訊，相當於檢視crawldb資料庫時所的到的資訊，對應於generate/fetch/update迴圈中的update環節 Content：儲存的是fetcher所抓取回來的源內容，也就是Html指令碼（預設是由protocol-httpclient外掛來處理的），可以直接檢視網頁進行對比 ParseData和ParseText：這兩部分就是解析內容，通過使用合適的解析器解析外掛（這裡就是parst-html），將源內容進行解析，用於indexes產生對應的索引

nutch solr系列之（二）nutch命令分析

nutch solr系列之（二）nutch命令分析

負載均衡系列之（二）nginx

Linux（centos 7）系列之（二）----XShell遠端連線本地虛擬機器

vue-admin 詳細註釋，必須手把手做專案系列之（二）

Intellij IDEA 2016學習系列之（二）mybatis-generator自動生成

Docker系列之（二）：使用Mesos管理Docker叢集（Mesos + Marathon + Chronos + Docker）

Dubbo系列之（二）Registry註冊中心-註冊（1）

Dubbo系列之（二）Registry註冊中心-註冊（2）

Git&GitHub學習筆記之（二）Git命令操作

solr 6.2.0系列教程（二）IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞

《Linux系統》之"皮毛系列"（二） Linux檔案系統的簡介

資料探勘入門系列教程（二）之分類問題OneR演算法

網絡遠程教育實施方案交流之（二）——網絡教育平臺項目的建設

Python入門系列教程（二）

web前端面試題系列：（二）

Spring Boot幹貨系列：（二）配置文件解析

Deep Learning論文筆記之（二）Sparse Filtering稀疏濾波

JXLS 2.4.0系列教程（二）——循環導出一個鏈表的數據

負載均衡系列之（一）負載均衡介紹

回顧2017系列篇（二）：移動端APP設計趨勢

nutch solr系列之（二）nutch命令分析

相關推薦