.NET Core 下的爬蟲利器

阿新 • • 發佈：2020-09-09

爬蟲大家或多或少的都應該接觸過的，爬蟲有風險，抓數需謹慎。

本著研究學習的目的，記錄一下在 .NET Core 下抓取資料的實際案例。爬蟲程式碼一般具有時效性，當我們的目標發生改版升級，規則轉換後我們寫的爬蟲程式碼就會失效，需要重新應對。抓取資料的主要思路就是去分析目標網站的頁面邏輯，利用xpath、正則表示式等知識去解析網頁拿到我們想要的資料。

本篇主要簡單介紹三個元件的使用，HtmlAgilityPack、AngleSharp、PuppeteerSharp，前兩個可以處理傳統的頁面，無法抓取單頁應用，如果需要抓取單頁應用可以使用PuppeteerSharp。

關於這三個元件庫的實際應用可以參考一下

定時任務最佳實戰系列文章。

新建一個控制檯專案，抓取幾個站點的資料來試試，先做準備工作，新增一個IHotNews的介面。

using System.Collections.Generic;
using System.Threading.Tasks;

namespace SpiderDemo
{
    public interface IHotNews
    {
        Task<IList<HotNews>> GetHotNewsAsync();
    }
}

HotNews模型，包含標題和連結

namespace SpiderDemo
{
    public class HotNews
    {
        public string Title { get; set; }

        public string Url { get; set; }
    }
}

最終我們通過依賴注入的方式，將抓取到的資料展示到控制檯中。

HtmlAgilityPack

在專案中安裝HtmlAgilityPack元件

Install-Package HtmlAgilityPack

這裡以部落格園為抓取目標，我們抓取首頁的文章標題和連結。

using HtmlAgilityPack;
using System.Collections.Generic;
using System.Linq;
using System.Threading.Tasks;

namespace SpiderDemo
{
    public class HotNewsHtmlAgilityPack : IHotNews
    {
        public async Task<IList<HotNews>> GetHotNewsAsync()
        {
            var list = new List<HotNews>();

            var web = new HtmlWeb();

            var htmlDocument = await web.LoadFromWebAsync("https://www.cnblogs.com/");

            var node = htmlDocument.DocumentNode.SelectNodes("//*[@id='post_list']/article/section/div/a").ToList();

            foreach (var item in node)
            {
                list.Add(new HotNews
                {
                    Title = item.InnerText,
                    Url = item.GetAttributeValue("href", "")
                });
            }

            return list;
        }
    }
}

新增HotNewsHtmlAgilityPack.cs實現IHotNews介面，訪問部落格園網址，拿到HTML資料後，使用xpath語法解析HTML，這裡主要是拿到a標籤即可。

通過檢視網頁分析可以得到這個xpath：//*[@id='post_list']/article/section/div/a。

然後在Program.cs中注入IHotNews，迴圈遍歷看看效果。

using Microsoft.Extensions.DependencyInjection;
using System;
using System.Linq;
using System.Threading.Tasks;

namespace SpiderDemo
{
    class Program
    {
        static async Task Main(string[] args)
        {
            IServiceCollection service = new ServiceCollection();

            service.AddSingleton<IHotNews, HotNewsHtmlAgilityPack>();

            var provider = service.BuildServiceProvider().GetRequiredService<IHotNews>();

            var list = await provider.GetHotNewsAsync();

            if (list.Any())
            {
                Console.WriteLine($"一共{list.Count}條資料");

                foreach (var item in list)
                {
                    Console.WriteLine($"{item.Title}\t{item.Url}");
                }
            }
            else
            {
                Console.WriteLine("無資料");
            }
        }
    }
}

AngleSharp

在專案中安裝AngleSharp元件

Install-Package AngleSharp

同樣的，新建一個HotNewsAngleSharp.cs也實現IHotNews介面，這次使用AngleSharp抓取。

using AngleSharp;
using System.Collections.Generic;
using System.Threading.Tasks;

namespace SpiderDemo
{
    public class HotNewsAngleSharp : IHotNews
    {
        public async Task<IList<HotNews>> GetHotNewsAsync()
        {
            var list = new List<HotNews>();

            var config = Configuration.Default.WithDefaultLoader();
            var address = "https://www.cnblogs.com";
            var context = BrowsingContext.New(config);
            var document = await context.OpenAsync(address);

            var cellSelector = "article.post-item";
            var cells = document.QuerySelectorAll(cellSelector);

            foreach (var item in cells)
            {
                var a = item.QuerySelector("section>div>a");
                list.Add(new HotNews
                {
                    Title = a.TextContent,
                    Url = a.GetAttribute("href")
                });
            }

            return list;
        }
    }
}

AngleSharp解析資料和HtmlAgilityPack的方式有所不同，AngleSharp可以利用css規則去獲取資料，用起來也是挺方便的。

在Program.cs中注入IHotNews，迴圈遍歷看看效果。

using Microsoft.Extensions.DependencyInjection;
using System;
using System.Linq;
using System.Threading.Tasks;

namespace SpiderDemo
{
    class Program
    {
        static async Task Main(string[] args)
        {
            IServiceCollection service = new ServiceCollection();

            service.AddSingleton<IHotNews, HotNewsAngleSharp>();

            var provider = service.BuildServiceProvider().GetRequiredService<IHotNews>();

            var list = await provider.GetHotNewsAsync();

            if (list.Any())
            {
                Console.WriteLine($"一共{list.Count}條資料");

                foreach (var item in list)
                {
                    Console.WriteLine($"{item.Title}\t{item.Url}");
                }
            }
            else
            {
                Console.WriteLine("無資料");
            }
        }
    }
}

PuppeteerSharp

PuppeteerSharp是基於Puppeteer的，Puppeteer 是一個Google 開源的NodeJS 庫，它提供了一個高階API 來通過DevTools協議控制Chromium 瀏覽器。Puppeteer 預設以無頭(Headless) 模式執行，但是可以通過修改配置執行“有頭”模式。

PuppeteerSharp可以幹很多事情，不光可以用來抓取單頁應用，還可以用來生成頁面PDF或者圖片，可以做自動化測試等。

在專案中安裝PuppeteerSharp元件

Install-Package PuppeteerSharp

使用PuppeteerSharp第一次會幫我們在專案根目錄中下載瀏覽器執行程式，這個取決於當前網速的快慢，建議手動下載後放在指定位置即可。

using PuppeteerSharp;
using System.Threading.Tasks;

namespace SpiderDemo
{
    class Program
    {
        static async Task Main(string[] args)
        {
            // 下載瀏覽器執行程式
            await new BrowserFetcher().DownloadAsync(BrowserFetcher.DefaultRevision);

            // 建立一個瀏覽器執行例項
            using var browser = await Puppeteer.LaunchAsync(new LaunchOptions
            {
                Headless = true,
                Args = new string[] { "--no-sandbox" }
            });

            // 開啟一個頁面
            using var page = await browser.NewPageAsync();

            // 設定頁面大小
            await page.SetViewportAsync(new ViewPortOptions
            {
                Width = 1920,
                Height = 1080
            });
        }
    }
}

上面這段程式碼是初始化PuppeteerSharp必要的程式碼，可以根據實際開發需要進行修改，下面以"https://juejin.im"為例，演示幾個常用操作。

獲取單頁應用HTML

...
var url = "https://juejin.im";
await page.GoToAsync(url, WaitUntilNavigation.Networkidle0);
var content = await page.GetContentAsync();
Console.WriteLine(content);

可以看到頁面上的HTML全部被獲取到了，這時候就可以利用規則解析HTML，拿到我們想要的資料了。

儲存為圖片

...
var url = "https://juejin.im/";
await page.GoToAsync(url, WaitUntilNavigation.Networkidle0);

await page.ScreenshotAsync("juejin.png");

儲存為PDF

var url = "https://juejin.im/";
await page.GoToAsync(url, WaitUntilNavigation.Networkidle0);

await page.PdfAsync("juejin.pdf");

PuppeteerSharp的功能還有很多，比如頁面注入HTML、執行JS程式碼等，使用的時候可以參考官網示例。

.NET Core 下的爬蟲利器

HtmlAgilityPack

AngleSharp

PuppeteerSharp

獲取單頁應用HTML

儲存為圖片

儲存為PDF

.NET Core 下的爬蟲利器

.NET Core下開源任務排程框架Hangfire

.NET Core 下使用 Apollo 配置中心

.NET Core 下使用 RabbitMQ

.NET Core 下使用 ElasticSearch

.NET Core下使用Kafka的方法步驟

.NET Core下使用Log4Net記錄日誌的方法步驟

.NET CORE 下如何使用國產資料庫進行開發

.NET Core下的日誌（3）：如何將日誌訊息輸出到控制檯上

.NET Core下好用的FTP框架 FluentFTP

.Net Core下的USB攝像頭截圖

net core下鏈路追蹤skywalking安裝和簡單使用

.Net core 下Quartz.Net + mysql 高可用模式

ASP.NET Core下FreeSql的倉儲事務

.Net Core下DllImport使用方法及擴充套件

net core下鏈路追蹤skywalking安裝和簡單使用教程

.Net Core 下AutoMapper 10.0 在的使用

.Net Core下使用Dapper的方法

關於.Net Core下因客戶端主動取消導致Request請求[FromBody]模型繫結讀取異常BadHttpRequestException 關於.Net Core3.0下因客戶端主動取消請求導致的Request.Body異常

談談.NET Core下如何利用 AsyncLocal 實現共享變數

.NET Core 下的爬蟲利器

HtmlAgilityPack

AngleSharp

PuppeteerSharp

獲取單頁應用HTML

儲存為圖片

儲存為PDF

相關推薦