Net開源網路爬蟲Abot介紹

阿新 • • 發佈：2019-02-01

.Net中也有很多很多開源的爬蟲工具，abot就是其中之一。Abot是一個開源的.net爬蟲，速度快，易於使用和擴充套件。專案的地址是https://code.google.com/p/abot/

對於爬取的Html，使用的分析工具是CsQuery, CsQuery可以算是.net中實現的Jquery, 可以使用類似Jquery中的方法來處理html頁面。CsQuery的專案地址是https://github.com/afeiship/CsQuery

一. 對Abot爬蟲配置

1. 通過屬性設定

先建立config物件，然後設定config中的各項屬性:

CrawlConfiguration crawlConfig = new 
 CrawlConfiguration(); 
crawlConfig.CrawlTimeoutSeconds = 100; 
crawlConfig.MaxConcurrentThreads = 10; 
crawlConfig.MaxPagesToCrawl = 1000; 
crawlConfig.UserAgentString = "abot v1.0 http://code.google.com/p/abot"; 
crawlConfig.ConfigurationExtensions.Add("SomeCustomConfigValue1", "1111"); 
crawlConfig.ConfigurationExtensions.Add( 
"SomeCustomConfigValue2", "2222");

2. 通過App.config配置

直接從配置檔案中讀取，但是也任然可以在修改各項屬性:

CrawlConfiguration crawlConfig = AbotConfigurationSectionHandler.LoadFromXml().Convert(); 
crawlConfig.CrawlTimeoutSeconds = 100; 
crawlConfig.MaxConcurrentThreads = 10;

3. 應用配置到爬蟲物件

PoliteWebCrawler crawler = new PoliteWebCrawler();
PoliteWebCrawler crawler  
= new PoliteWebCrawler(crawlConfig, null, null, null, null, null, null, null);

二，使用爬蟲，註冊各種事件

爬蟲中主要是4個事件, 頁面爬取開始、頁面爬取失敗、頁面不允許爬取事件、頁面中的連結不允許爬取事件。

下面是示例程式碼:

crawlergeCrawlStartingAsync += crawler_ProcessPageCrawlStarting;//單個頁面爬取開始 
crawler.PageCrawlCompletedAsync += crawler_ProcessPageCrawlCompleted;//單個頁面爬取結束 
crawler.PageCrawlDisallowedAsync += crawler_PageCrawlDisallowed;//頁面不允許爬取事件 
crawler.PageLinksCrawlDisallowedAsync += crawler_PageLinksCrawlDisallowed;//頁面連結不允許爬取事件

void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e)
{
        PageToCrawl pageToCrawl = e.PageToCrawl;
        Console.WriteLine("About to crawl link {0} which was found on page {1}", pageToCrawl.Uri.AbsoluteUri, pageToCrawl.ParentUri.AbsoluteUri);
}

void crawler_ProcessPageCrawlCompleted(object sender, PageCrawlCompletedArgs e)
{
        CrawledPage crawledPage = e.CrawledPage;
        if (crawledPage.WebException != null || crawledPage.HttpWebResponse.StatusCode != HttpStatusCode.OK)
                Console.WriteLine("Crawl of page failed {0}", crawledPage.Uri.AbsoluteUri);
        else
                Console.WriteLine("Crawl of page succeeded {0}", crawledPage.Uri.AbsoluteUri);
        if (string.IsNullOrEmpty(crawledPage.Content.Text))
                Console.WriteLine("Page had no content {0}", crawledPage.Uri.AbsoluteUri);

}

void crawler_PageLinksCrawlDisallowed(object sender, PageLinksCrawlDisallowedArgs e)
{
        CrawledPage crawledPage = e.CrawledPage;
        Console.WriteLine("Did not crawl the links on page {0} due to {1}", crawledPage.Uri.AbsoluteUri, e.DisallowedReason);
}

void crawler_PageCrawlDisallowed(object sender, PageCrawlDisallowedArgs e)
{
        PageToCrawl pageToCrawl = e.PageToCrawl;
        Console.WriteLine("Did not crawl page {0} due to {1}", pageToCrawl.Uri.AbsoluteUri, e.DisallowedReason);
}

三，為爬蟲新增多個附加物件

Abot應該是借鑑了Asp.net MVC中的ViewBag, 也為爬蟲物件設定了物件級別的CrwalBag和Page級別的ViewBag.

PoliteWebCrawler crawler = new PoliteWebCrawler();
crawler.CrawlBag.MyFoo1 = new Foo();//物件級別的CrwalBag
crawler.CrawlBag.MyFoo2 = new Foo();
crawler.PageCrawlStartingAsync += crawler_ProcessPageCrawlStarting;
...
void crawler_ProcessPageCrawlStarting(object sender, PageCrawlStartingArgs e)
{
        //獲取CrwalBag中的物件
        CrawlContext context = e.CrawlContext;
        context.CrawlBag.MyFoo1.Bar();//使用CrwalBag
        context.CrawlBag.MyFoo2.Bar();

        //使用頁面級別的PageBag
        e.PageToCrawl.PageBag.Bar = new Bar();
}

四，啟動爬蟲

啟動爬蟲非常簡單，呼叫Crawl方法，指定好開始頁面，就可以了。

CrawlResult result = crawler.Crawl(new Uri("http://localhost:1111/"));

if (result.ErrorOccurred)
        Console.WriteLine("Crawl of {0} completed with error: {1}", result.RootUri.AbsoluteUri, result.ErrorException.Message);
else
        Console.WriteLine("Crawl of {0} completed without error.", result.RootUri.AbsoluteUri);

五，介紹CsQuery

在PageCrawlCompletedAsync事件中, e.CrawledPage.CsQueryDocument就是一個CsQuery物件。

這裡介紹一下CsQuery在分析Html上的優勢:

cqDocument.Select(".bigtitle > h1")

這裡的選擇器的用法和Jquery完全相同，這裡是取class為.bittitle下的h1標籤。如果你能熟練的使用Jquery，那麼上手CsQuery會非常快和容易

Net開源網路爬蟲Abot介紹

.Net中也有很多很多開源的爬蟲工具，abot就是其中之一。Abot是一個開源的.net爬蟲，速度快，易於使用和擴充套件。專案的地址是https://code.google.com/p/abot/ 對於爬取的Html，使用的分析工具是CsQuery, CsQuery可以算是.net中實現的Jquery,

開源網路爬蟲彙總

Awesome-crawler-cn 網際網路爬蟲，蜘蛛，資料採集器，網頁解析器的彙總，因新技術不斷髮展，新框架層出不窮，此文會不斷更新... 交流討論歡迎推薦你知道的開源網路爬蟲，網頁抽取框架. 開源網路爬蟲QQ交流群:322

.NET實現網路爬蟲

爬蟲的特徵和執行方式 User-Agent：主要用來將我們的爬蟲偽裝成瀏覽器。 Cookie：主要用來儲存爬蟲的登入狀態。連線數：主要用來限制單臺機器與服務端的連線數量。代理IP：主要用來偽裝請求地址，提高單機併發數量。爬蟲工作的方式可以歸納為兩

精通Python網路爬蟲-書籍介紹

本書從技術、工具與實戰3個維度講解了Python網路爬蟲：技術維度：詳細講解了Python網路爬蟲實現的核心技術，包括網路爬蟲的工作原理、如何用urllib庫編寫網路爬蟲、爬蟲的異常處理、正則表示式、爬蟲中Cookie的使用、爬蟲的瀏覽器偽裝技術、定向爬取技術、反爬蟲技術，以及如何自己動手編寫網路爬

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

網路爬蟲過程中5種網頁去重方法簡要介紹

一般的，我們想抓取一個網站所有的URL，首先通過起始URL，之後通過網路爬蟲提取出該網頁中所有的URL連結，之後再對提取出來的每個URL進行爬取，提取出各個網頁中的新一輪URL，以此類推。整體的感覺就是自上而下進行抓取網頁中的連結，理論上來看，可以抓取整站所有的連結。但是問題來了，一個網站中網頁的連結是有

.NET 開源專案 Polly 介紹

今天介紹一個 .NET 開源庫：Polly，它是支援 .NET Core 的，目前在 GitHub 的 Star 數量已經接近 5 千，它是一個強大且實用的 .NET 庫。 Polly 介紹官方對 Polly 的介紹是這樣的： Polly is a .NET resilience and

綜述：本專欄將介紹以下內容（專欄：網路爬蟲（java版））

目前爬蟲技術非常火，使用Java、Python、PHP等語言都可以完成。雖說現在Python是開發爬蟲的首選語言，但是Java在爬蟲的開發方面也是有一定優勢的：例如，HttpClient可以很好地模擬瀏覽器請求；Jsoup在解析爬取的Html文件時具有非常高效的特性；最重要的是Java很

爬蟲的一些知識點目錄 1. 網路爬蟲 1 2. 產生背景垂直領域搜尋引擎 2 3. 1 聚焦爬蟲工作原理以及關鍵技術概述 3 4. 涉及技術 3 4.1. 下載網頁一般是通過net api

爬蟲的一些知識點目錄 1. 網路爬蟲 1 2. 產生背景垂直領域搜尋引擎 2 3. 1 聚焦爬蟲工作原理以及關鍵技術概述 3 4. 涉及技術 3 4.1. 下載網頁一般是通過net api 3 4.2. 分析網頁（html分析

網路的開源線上考試系統介紹：

一個：（文件較全） TCExam是一款基於網路的開源線上考試系統，用於線上試題的生成、管理等方面。最近，線上考試作為替代傳統“紙筆考試”的一種方法逐步在很多學校和企業流行起來，這種方法能夠大大簡化整個考試流程，將出題、考試、管理、閱卷等常規過程一併納入一個系統中，不僅減

.NET 開源專案 StreamJsonRpc 介紹

StreamJsonRpc 是一個實現了 JSON-RPC 通訊協議的開源 .NET 庫，在介紹 StreamJsonRpc 之前，我們先來了解一下 JSON-RPC。 ## JSON-RPC 介紹 JSON-RPC 是一個無狀態且輕量級的遠端過程呼叫（RPC）協議，其使用 JSON（RFC 4

.NET 開源專案 StreamJsonRpc 介紹[下篇]

閱讀本文大概需要 9 分鐘。大家好，這是 .NET 開源專案 StreamJsonRpc 介紹的最後一篇。[上篇](https://mp.weixin.qq.com/s/3V4mCdFvNzUzqkqKm-rzpw)介紹了一些預備知識，包括 JSON-RPC 協議介紹，StreamJsonRpc 是一個實

SEO 爬蟲原理介紹

部分三種常見系統好的 eve 爬蟲格式分布式一篇關於網絡爬蟲程序的一些原理及體系結構純技術文章，一些地方可能不會看的非常明確。對於SEO行業，常常和搜索引擎及其爬蟲程序打交道，細致瀏覽下，一些不清楚而自己又非常想了解的地方，能夠借助搜索來需找相關解釋，對工

.net開源項目整理

npoi 過時 n) 使用客戶 server 三層 Lucene ref 整理一些平時收藏和應用的開源代碼，方便自己學習和查閱 1.應用 nopcommerce，開源電商網站，開發環境asp.net mvc(未支持.net core)，使用技術(autofac，ef，頁面

高效實用的.NET開源項目

apache oda web應用 https 訪問路由 edi lin 性能 1.Akka.NET：　　概述：更輕松地構建強大的並發和分布式應用。　　簡介：Akka.NET是一個用於在.NET和Mono上構建高度並發，分布式和容錯的事件驅動應用程序的工具包和

Quartz.NET開源作業調度框架系列(一):快速入門step by step-轉

rand 隨機 axis 開發人員 c# returns .net開源觸發 mis 　Quartz.NET是一個被廣泛使用的開源作業調度框架 , 由於是用C#語言創建，可方便的用於winform和asp.net應用程序中。Quartz.NET提供了巨大的靈活性但又兼具

Quartz.NET開源作業調度框架系列(二):CronTrigger-轉

obb uil 北京時間 imp builder erb wid res inf 　CronTriggers比SimpleTrigger更加的靈活和有用,對於比較復雜的任務觸發規則,例如"每個星期天的晚上12:00"進行備份任務,SimpleTrigger就不能勝任,只

Quartz.NET開源作業調度框架系列(三):IJobExecutionContext 參數傳遞-轉

調度 bool public namespace edt seconds table == row 前面寫了關於Quartz.NET開源作業調度框架的入門和Cron Trigger , 這次繼續這個系列, 這次想討論一下Quartz.NET中的Job如何通過執行上下文(

【轉】Quartz.net開源作業調度框架使用詳解

詳解 des 關於 utc ogg knowledge imp common dem 轉自：http://www.cnblogs.com/knowledgesea/p/4930469.html 前言 quartz.net作業調度框架是偉大組織OpenSymphony開發的q

最全反爬蟲技術介紹

urn control ror os x 字符串比較 ext 系列 3.1 模擬反爬蟲的技術大概分為四個種類：註：文末有福利！一、通過User-Agent來控制訪問：無論是瀏覽器還是爬蟲程序，在向服務器發起網絡請求的時候，都會發過去一個頭文件：headers，

Net開源網路爬蟲Abot介紹

一. 對Abot爬蟲配置

二，使用爬蟲，註冊各種事件

三， 為爬蟲新增多個附加物件

四，啟動爬蟲

五，介紹CsQuery

相關推薦

三，為爬蟲新增多個附加物件