1. 程式人生 > >nutch solr系列之(二)nutch命令分析

nutch solr系列之(二)nutch命令分析

1、$ ./nutch readdb crawlDir/crawldb/ -stats 此命令用來統計crawldb中連結的數量,以及fetch過的連結數量和未fetch過的連結數量 [email protected] /home/apache-nutch-1.9/bin $ ./nutch readdb crawlDir/crawldb/ -stats CrawlDb statistics start: crawlDir/crawldb/ Statistics for CrawlDb: crawlDir/crawldb/ TOTAL urls: 3568 retry 0: 3567 retry 1: 1 min score: 0.0 avg score: 8.7107625E-4 max score: 1.133 status 1 (db_unfetched): 2982 status 2 (db_fetched): 586 CrawlDb statistics: done 2
、$ ./nutch readdb crawlDir/crawldb/ -dump crawldb 此命令使用者匯出連結的資訊到crawldb資料夾中,裡面記錄了每個連結的詳細資訊 [email protected] /home/apache-nutch-1.9/bin $ ./nutch readdb crawlDir/crawldb/ -dump crawldb CrawlDb dump: starting CrawlDb db: crawlDir/crawldb/ CrawlDb dump: done 此命令用來分析某一個連結的資訊 [email protected] /home/apache-nutch-1.9/bin $ ./nutch readdb crawlDir/crawldb/ -url http://cs.fang.lianjia.com/ URL: http://cs.fang.lianjia.com/ Version: 7 Status: 2 (db_fetched) Fetch time: Tue Nov 14 21:37:39 CST 2017 Modified time: Thu Jan 01 08:00:00 CST 1970 Retries since fetch: 0 Retry interval: 2592000 seconds (30 days) Score: 1.1338482 Signature: dc19d8253ee5b3af82535b28e422d45a Metadata: _pst_=success(1), lastModified=0 _rs_=344 Content-Type=text/html 4
、$ ./nutch readlinkdb crawlDir/linkdb/ -dump linkdb 此命令用來匯出網頁所有的連結(這次實驗中沒有產生網頁的連結) [email protected] /home/apache-nutch-1.9/bin $ ./nutch readlinkdb crawlDir/linkdb/ -dump linkdb LinkDb dump: starting at 2017-10-17 20:05:22 LinkDb dump: db: crawlDir/linkdb/ LinkDb dump: finished at 2017-10-17 20:05:24, elapsed: 00:00:01 5
、$ ./nutch readseg -list -dir crawlDir/segments/ 此命令用來讀取segments的統計資訊 [email protected] /home/apache-nutch-1.9/bin $ ./nutch readseg -list -dir crawlDir/segments/ NAME GENERATED FETCHER START FETCHER END FETCHED PARSED 20171015213734 1 2017-10-15T21:37:39 2017-10-15T21:37:39 1 1 20171015213808 50 2017-10-15T21:38:14 2017-10-15T21:42:55 50 50 20171015214329 536 2017-10-15T21:43:35 2017-10-15T22:35:05 536 535 6、 $ ./nutch readseg -dump crawlDir/segments/20171015213734 segdb12 -locale zh_CN 或者$ ./nutch readseg -dump crawlDir/segments/20171015213734 segdb12 -locale zh_CN 引數可以省略 此命令為將segments下面的內容匯出為純檔案(包含網頁內容)到資料夾segdb12 下(此次實驗中部分中文亂碼) [email protected] /home/apache-nutch-1.9/bin $ ./nutch readseg -dump crawlDir/segments/20171015213734 segdb12 -locale zh_CN SegmentReader: dump segment: crawlDir/segments/20171015213734 SegmentReader: done 通過這個可以看到segment檔案內容分為CrawlDatum、Content、ParseData、ParseText四部分 CrawlDatum: 儲存的是抓取的基本資訊,相當於檢視crawldb資料庫時所的到的資訊,對應於generate/fetch/update迴圈中的update環節 Content: 儲存的是fetcher所抓取回來的源內容,也就是Html指令碼(預設是由protocol-httpclient外掛來處理的),可以直接檢視網頁進行對比 ParseData和ParseText: 這兩部分就是解析內容,通過使用合適的解析器解析外掛(這裡就是parst-html),將源內容進行解析,用於indexes產生對應的索引

相關推薦

nutch solr系列nutch命令分析

1、$ ./nutch readdb crawlDir/crawldb/ -stats 此命令用來統計crawldb中連結的數量,以及fetch過的連結數量和未fetch過的連結數量 [email protected] /home/apache-nutch-1.

負載均衡系列nginx

永遠 實例 表示 特性 反向代理服務器 依據 forward 訪問 子郵件 Nginx是一款輕量級的Web 服務器/反向代理服務器及電子郵件(IMAP/POP3)代理服務器,並在一個BSD-like 協議下發行 其特點是占有內存少,並發能力強,事實上nginx的並發能力

Linuxcentos 7系列----XShell遠端連線本地虛擬機器

      本來是在自己的一臺筆記本上安裝的雙系統,但是每次都要去開啟筆記本,同時開啟兩臺機器,感覺不是很方便,因此就在自己的桌上型電腦上安裝了虛擬機器,但是虛擬機器的終端操作起來也不是很爽,因此採用了XShell5遠端連線本地的虛擬機器的方式去進行操作,虛擬機器的

vue-admin 詳細註釋,必須手把手做專案系列

系列文章 [juejin.im/post/5c0e45…]vue-admin 詳細註釋,必須手把手做專案系列之(一) 麻雀雖小五臟俱全:[專案地址 github.com/whylisa/vue…) 前言 這兩天專案上線樓主要一大推的事要忙,要和產品撕逼,要和後臺討論一系列的問題要怎麼

Intellij IDEA 2016學習系列mybatis-generator自動生成

1.在maven工程中的resource中建立generatorConfig.xml 配置generatorConfig.xml的 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE

Docker系列:使用Mesos管理Docker叢集Mesos + Marathon + Chronos + Docker

http://www.cnblogs.com/ee900222/p/docker_2.html 1. Mesos簡介 1.1 Mesos Apache Mesos 是一個分散式系統的管理軟體,對叢集的資源進行分配和管理。 Mesos

Dubbo系列 Registry註冊中心-註冊1

# 引導 dubbo的服務的註冊與發現,需要通過第三方註冊中心來協助完成,目前dubbo支援的註冊中心包括 zookeeper,consul,etcd3,eureka,nacas,redis,sofa。這些註冊中心的不同支援在之後的篇章進行分享。 # 基礎鋪墊 在鋪墊一些基礎內容之前,根據如果下幾個問題來進行

Dubbo系列 Registry註冊中心-註冊2

# 引導 本章主要介紹下AbstractRegistry、FailbackRegistry的作用和原始碼。 # AbstractRegistry 首先,直接引出這個類的作用,該類主要把服務提供者資訊快取本地檔案上,檔案目錄是:當前使用者目錄下的/.dubbo/dubbo-registry-${applicat

Git&GitHub學習筆記Git命令操作

在上篇文章中,我們就說過Git與GitHub不是一回事。GitHub是基於Git的,Git是基礎。所以再學習更多的GitHub知識之前,就得先了解Git。 一、什麼是Git Git 是一款免費、開源的分散式版本控制系統,他是著名的 Linux 發明者 L

solr 6.2.0系列教程IK中文分詞器配置及新增擴充套件詞、停止詞、同義詞

前言 2、solr的不同版本,對應不同版本的IK分詞器。由於IK 2012年停止更新了。所以以前的版本不適合新版的solr。 有幸在網上扒到了IK原始碼自己稍微做了調整,用來相容solr6.2.0版本。IK原始碼下載地址 步驟 1、解壓下載的src.rar壓縮包,這是我建

《Linux系統》"皮毛系列" Linux檔案系統的簡介

一、Linux檔案系統 1、檔案系統簡介 Linux系統的理念是:一切都是檔案。 其實這個是Unix系統的哲學思想,而Linux是由Unix系統而來,所以也繼承了這個思想: Unix系統把一切資源都看作是檔案,包括硬體裝置。硬體所形成的檔案,通常稱為裝置檔案。這樣使用者

資料探勘入門系列教程分類問題OneR演算法

資料探勘入門系列教程(二)之分類問題OneR演算法 資料探勘入門系列部落格:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 專案地址:GitHub 在上一篇部落格中,我們通過分析親和性來尋找資料集中資料與資料之間的相關關係。這篇部落

網絡遠程教育實施方案交流——網絡教育平臺項目的建設

商城 免費 數據 及其 技術 充值 互聯網產品 遠程教育 導出 網絡教育平臺項目的建設的方案能夠自建也能夠採購。但項目是否成功,並終於能夠落地發展,還須要業主方認真的調研和分析,最有效的方法就是利用項目管理的方法,從前期的需求分析、調研、可行性分析,立項

Python入門系列教程

字符 小寫 無符號 bsp div width raw_input abc body 字符串 1.字符串輸出 name = ‘xiaoming‘ print("姓名:%s"%name) 2.字符串輸入 userName = raw_input(‘請輸

web前端面試題系列

html name 價值 編程 oct rom repeat 清除 frame 1、列舉你工作中遇到的IE6 BUG,談談解決方案 a.雙倍邊距bug: 例如:當給父元素內第一個浮動元素設置margin-left或margin-right的時候,margin屬性會加倍,

Spring Boot幹貨系列配置文件解析

set test profile ava java prefix 標註 了解 pre Spring Boot:配置文件解析 前言 上一篇介紹了Spring Boot的入門,知道了Spring Boot使用“習慣優於配置”(項目中存在大量的配置,此外

Deep Learning論文筆記Sparse Filtering稀疏濾波

structure 分布 的確 tlab bolt 期望 有一個 尋找 mean Deep Learning論文筆記之(二)Sparse Filtering稀疏濾波 自己平時看了一些論文,但老感覺看完過後就會慢慢的淡忘,某一天重新拾起來的時候又好像沒有

JXLS 2.4.0系列教程——循環導出一個鏈表的數據

教程 super 最簡 com arraylist port 至少 ron mod 請務必先看上一篇文章,本文在上一篇文章的代碼基礎上修改而成。 JXLS 2.4.0系列教程(一)——最簡單的模板導出 上一篇文章我們介紹了JXLS和模板導出最簡單的應用,現在我們要更進一

負載均衡系列負載均衡介紹

擴展 貴的 程序 das 等待 計算機集群 通過 因此 高速 負載均衡即是將負載分攤到不同的服務單元,既保證服務的可用性,又保證響應足夠快,給用戶很好的體驗. 集群的分類 負載均衡集群(Load Balancing clusters),簡稱LBC或LB高可用性集群(Hi

回顧2017系列:移動端APP設計趨勢

原型設計 交互設計 界面設計 設計師 移動端APP在2017年經歷了諸多的變化, 人工智能、聊天式的界面、響應式設計、虛擬現實(VR)和增強現實(AR)讓設計師不斷面臨新的挑戰。研究表明,用戶每天耗費在手機和平板上的平均時長為158分鐘,其中127分鐘是耗費在各類APP中,可以看出移動端