C#爬蟲，讓你不再覺得神祕

阿新 • • 發佈：2020-12-20

1、使用第三方類庫 HtmlAgilityPack

官方網址：https://html-agility-pack.net/?z=codeplex、

// From File 從檔案獲取html資訊
var doc = new HtmlDocument();
doc.Load(filePath);

// From String 從字串獲取html資訊
var doc = new HtmlDocument();
doc.LoadHtml(html);

// From Web   從網址獲取html資訊
var url = "http://html-agility-pack.net/";
var web = new HtmlWeb();
var doc = web.Load(url);

1.1、這裡介紹一下最後一種用法

var web = new HtmlWeb();
var doc = web.Load(url);

在 web 中我們還可以設定cookie、headers等資訊，來處理一些特定的網站需求，比如需要登陸等。

1.2 用法解釋

網頁在你檢視網頁原始碼之後只是一段字串，而爬蟲所做的就是在這堆字串中，查詢到我們想要的資訊，挑選出來。
以往的篩選方法：正則（太麻煩了，寫起來有些頭疼）
HtmlAgilityPack 支援通過XPath來解析我們需要的資訊。

1.2.1 在哪裡找XPath？

網頁右鍵檢查

通過XPath就可以準確獲取你想要元素的全部資訊。

1.2.2 獲取選中Html元素的資訊？

獲取選中元素

var web = new HtmlWeb();
var doc = web.Load(url);
var htmlnode = doc?.DocumentNode?.SelectSingleNode("/html/body/header")

獲取元素資訊

htmlnode.InnerText;
htmlnode.InnerHtml;
//根據屬性取值
htmlnode?.GetAttributeValue("src", "未找到")

2、自己封裝的類庫

 /// <summary>
    /// 下載HTML幫助類
    /// </summary>
    public static class LoadHtmlHelper
    {
        /// <summary>
        /// 從Url地址下載頁面
        /// </summary>
        /// <param name="url"></param>
        /// <returns></returns>
        public async static ValueTask<HtmlDocument> LoadHtmlFromUrlAsync(string url)
        {
            HtmlWeb web = new HtmlWeb();
             return await
                 web?.LoadFromWebAsync(url);
        }

        /// <summary>
        /// 獲取單個節點擴充套件方法
        /// </summary>
        /// <param name="htmlDocument">文件物件</param>
        /// <param name="xPath">xPath路徑</param>
        /// <returns></returns>
        public static HtmlNode GetSingleNode(this HtmlDocument htmlDocument, string xPath)
        {
          return  htmlDocument?.DocumentNode?.SelectSingleNode(xPath);
        }

        /// <summary>
        /// 獲取多個節點擴充套件方法
        /// </summary>
        /// <param name="htmlDocument">文件物件</param>
        /// <param name="xPath">xPath路徑</param>
        /// <returns></returns>
        public static HtmlNodeCollection GetNodes(this HtmlDocument htmlDocument, string xPath)
        {
            return htmlDocument?.DocumentNode?.SelectNodes(xPath);
        }

     

        /// <summary>
        /// 獲取多個節點擴充套件方法
        /// </summary>
        /// <param name="htmlDocument">文件物件</param>
        /// <param name="xPath">xPath路徑</param>
        /// <returns></returns>
        public static HtmlNodeCollection GetNodes(this HtmlNode htmlNode, string xPath)
        {
            return htmlNode?.SelectNodes(xPath);
        }


        /// <summary>
        /// 獲取單個節點擴充套件方法
        /// </summary>
        /// <param name="htmlDocument">文件物件</param>
        /// <param name="xPath">xPath路徑</param>
        /// <returns></returns>
        public static HtmlNode GetSingleNode(this HtmlNode htmlNode, string xPath)
        {
            return htmlNode?.SelectSingleNode(xPath);
        }

        /// <summary>
        /// 下載圖片
        /// </summary>
        /// <param name="url">地址</param>
        /// <param name="filpath">檔案路徑</param>
        /// <returns></returns>
        public async static ValueTask<bool> DownloadImg(string url ,string filpath)
        {
            HttpClient httpClient = new HttpClient();
            try
            {
                var bytes = await httpClient.GetByteArrayAsync(url);
                using (FileStream fs = File.Create(filpath))
                {
                    fs.Write(bytes, 0, bytes.Length);
                }
                return File.Exists(filpath);
            }
            catch (Exception ex)
            {
             
                throw new Exception("下載圖片異常", ex);
            }
            
        }
    }

3、自己寫的爬蟲案例，爬取的網站https://www.meitu131.com/

資料儲存層沒有實現，懶得寫了，靠你們嘍，我是資料暫時存在了檔案中
GitHub地址：https://github.com/ZhangQueque/quewaner.Crawler.git

C#爬蟲，讓你不再覺得神祕

1、使用第三方類庫 HtmlAgilityPack 官方網址：https://html-agility-pack.net/?z=codeplex、 // From File 從檔案獲取html資訊

c# String擴充套件讓你在PadLeft和PadRight時不再受單雙位元組問題困擾

C# 中 PadLeft,PadRight的用法簡單來說就是給字串實現補位。如：String.PadLeft(5,\'0\'); 表示檢查字串長度是否少於5位，若少於5位，則自動在其左側以\'0\'補足。

Python 爬蟲儲存圖片最快速得方式，讓你少走彎路

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

使用 Python爬蟲-- 一鍵下載B站視訊，讓你瞭解B站程式碼資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

《C指標全解》讓你不再害怕指標

前言:複雜型別說明要了解指標,多多少少會出現一些比較複雜的型別,所以我先介紹一下如何完全理解一個複雜型別,要理解複雜型別其實很簡單,一個型別裡會出現很多運算子,他們也像普通的表示式一樣,有優先順序,其優先順序

掌握這個小技巧，讓你的 C++ 編譯速度提升 50 倍！

隨著 C++ 專案的持續擴大，編譯效率越來越是一個問題了。想一想你每天花在這上面的時間，再乘以團隊成員的個數，是不是成本很高？

需求評審，測試人員應該發揮怎樣的價值？兩分鐘讓你不再懵逼

前言大家好，我是IT小學生蔡坨坨。前些日與朋友聊天，談及需求評審，作為測試人員，我們應該在需求評審會議上做些什麼？

BI智慧倉儲行業應用方案，讓你的倉儲物流不再複雜

倉儲物流行業現狀對於物流倉儲行業來講，面對激烈的市場競爭，日益升高的人工成本，不斷提升的轉運要求，以及搬運損毀效果和轉運效率的低下，企業必須去提升市場的競爭力來站穩市場。倉儲管理在物流管理中佔據著核心

看到這篇啟動優化，讓你的App有順滑無比的啟動速度~~

為什麼要做啟動優化 1.APP的啟動速度是直接影響使用者體驗的關鍵因素 2.隨著APP的迭代和程式設計師的懈怠，三方庫的依賴越來越多，自定義的category越來越多，重複的方法越來越多，會直接影響APP的啟動時間

一篇文章，讓你看懂 Spring Cloud 之 Eureka

Eureka 什麼是 Eureka？ Eureka 由 Netflix 開發，是一種基於REST（Representational State Transfer）的服務，用於定位服務（服務註冊與發現），以實現中間層服務的負載均衡和故障轉移，此服務被稱為 Eureka Server

詳解Java集合框架，讓你全面掌握！

一、Java集合框架概述集合可以看作是一種容器，用來儲存物件資訊。所有集合類都位於java.util包下，但支援多執行緒的集合類位於java.util.concurrent包下。

百億級實時查詢優化實戰，讓你的Elasticsearch飛起來！

最近的一個專案是風控過程資料實時統計分析和聚合的一個 OLAP 分析監控平臺，日流量峰值在 10 到 12 億上下，每年資料約 4000 億條，佔用空間大概 200T。

讀懂這些BAT大廠面試“潛規則”，讓你成為行走的“offer收割機”

一、前言不少Java程式設計師兄弟，在在應聘一些中大型網際網路公司的Java工程師崗位時，經常會遇到如下

【記錄】velocity模板引擎，讓你放開雙手，一鍵生成程式碼

最近專案中需要編寫幾十個介面，包括欄位查詢，匯出，id查詢單個，如果單純CV工作量很大，還有可能出現錯誤。

給日誌打標籤，讓你的日誌定位再無困難

背景不知道各位在生產日誌中定位問題時有沒有碰到這樣的場景：由於coding的時候日誌輸出的比較少，出現問題時，很難通過日誌去定位到問題。又或者是，你明明coding的時候有輸出日誌。但是在龐大的日誌檔案中，由於業

減少你的程式碼巢狀，讓你的程式碼可讀性大大提升

正常很多人寫程式碼會使用這樣的邏輯寫if程式碼也很符合當時的邏輯例如：

Python基礎知識案例，讓你快速瞭解判斷語句

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

你說要你想玩爬蟲，但你說你不懂Python正則表示式，我信你個鬼，那你還不來看看？

前言正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

這幾個程式設計小技巧，讓你程式碼效率提高一個檔次java

for迴圈 for迴圈變數初始化在c語言中，我們常常這樣使用for語句： for (int i = 0; i < strlen(s); i++)

怎麼才能隱藏的IP？打造超強IP池專案，讓你自己都忘記原本的IP

前言隨著大型網站反扒機制的增強，更改IP登陸已經成為一種最高效的方式，為此打造一款超強IP池專案，採用最新最快的Python技術——非同步（Async ）。編寫了一個免費的非同步爬蟲代理池，以 Python async

C#爬蟲，讓你不再覺得神祕

1、使用第三方類庫 HtmlAgilityPack

1.1、這裡介紹一下最後一種用法

1.2 用法解釋

1.2.1 在哪裡找XPath？

1.2.2 獲取選中Html元素的資訊？

2、自己封裝的類庫

3、自己寫的爬蟲案例，爬取的網站https://www.meitu131.com/

相關推薦