.NET實現網路爬蟲

阿新 • • 發佈：2019-01-22

爬蟲的特徵和執行方式

User-Agent：主要用來將我們的爬蟲偽裝成瀏覽器。

Cookie：主要用來儲存爬蟲的登入狀態。

連線數：主要用來限制單臺機器與服務端的連線數量。

代理IP：主要用來偽裝請求地址，提高單機併發數量。

爬蟲工作的方式可以歸納為兩種：深度優先、廣度優先。

深度優先就是一個連線一個連線的向內爬，處理完成後再換一下一個連線，這種方式對於我們來說缺點很明顯。
廣度優先就是一層一層的處理，非常適合利用多執行緒併發技術來高效處理，因此我們也用廣度優先的抓取方式。

首先我們用Visual Studio 2015建立一個控制檯程式，定義一個簡單的SimpleCrawler類，裡面只包含幾個簡單的事件：

 public class SimpleCrawler
    {
        public SimpleCrawler() { }
        /// <summary>
        /// 爬蟲啟動事件
        /// </summary>
        public event EventHandler<OnStartEventArgs> OnStart;
        /// <summary>
        /// 爬蟲完成事件
        /// </summary>
        public event EventHandler<OnCompletedEventArgs> OnCompleted;

        /// 
 <summary>
        /// 爬蟲出錯事件
        /// </summary>
        public event EventHandler<Exception> OnError;
        /// <summary>
        /// 定義cookie容器
        /// </summary>
        public CookieContainer CookieContainer { get; set; }

    }

接著我們建立一個OnStart的事件物件：

這裡寫圖片描述

然後我們建立一個OnCompleted事件物件：

這裡寫圖片描述

最後我們再給它增加一個非同步方法，通過User-Agent將爬蟲偽裝成了Chrome瀏覽器

 /// <summary>
        /// 非同步建立爬蟲
        /// </summary>
        /// <param name="uri"></param>
        /// <param name="proxy"></param>
        /// <returns></returns>
        public async Task<string> Start(Uri uri, WebProxy proxy = null)
        {
            return await Task.Run(() =>
            {
                var pageSource = string.Empty;
                try
                {
                    if (this.OnStart != null)
                        this.OnStart(this, new OnStartEventArgs(uri));
                    Stopwatch watch = new Stopwatch();
                    watch.Start();
                    HttpWebRequest request = (HttpWebRequest)WebRequest.Create(uri);
                    request.Accept = "*/*";
                    //定義文件型別及編碼
                    request.ContentType = "application/x-www-form-urlencoded";
                    request.AllowAutoRedirect = false;//禁止自動跳轉
                    request.UserAgent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36";
                    //定義請求超時事件為5s
                    request.Timeout = 5000;
                    //長連線
                    request.KeepAlive = true;
                    request.Method = "GET";
                    //設定代理伺服器IP，偽裝請求地址
                    if (proxy != null)
                        request.Proxy = proxy;
                    //附加Cookie容器
                    request.CookieContainer = this.CookieContainer;
                    //定義最大連結數
                    request.ServicePoint.ConnectionLimit = int.MaxValue;
                    //獲取請求響應
                    HttpWebResponse response = (HttpWebResponse)request.GetResponse();
                    //將Cookie加入容器，保持登入狀態
                    foreach (Cookie cookie in response.Cookies)
                        this.CookieContainer.Add(cookie);
                    //獲取響應流
                    Stream stream = response.GetResponseStream();
                    //以UTF8的方式讀取流
                    StreamReader reader = new StreamReader(stream,Encoding.UTF8);
                    //獲取網站資源
                    pageSource = reader.ReadToEnd();
                    watch.Stop();
                    //獲取當前任務執行緒ID
                    var threadID = Thread.CurrentThread.ManagedThreadId;
                    //獲取請求執行時間
                    var milliseconds = watch.ElapsedMilliseconds;
                    reader.Close();
                    stream.Close();
                    request.Abort();
                    response.Close();
                    if (this.OnCompleted != null)
                        this.OnCompleted(this, new OnCompletedEventArgs(uri, threadID, milliseconds, pageSource));
                }
                catch (Exception ex)
                {
                    if (this.OnError != null)
                        this.OnError(this, ex);

                }
                return pageSource;
            });
        }

在控制檯裡寫下爬蟲的抓取程式碼：

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading.Tasks;

namespace TestPa
{
    class Program
    {
        static void Main(string[] args)
        {
            //定義入口URl
            var cityUrl = "http://hotels.ctrip.com/citylist";
            //定義泛型列表存放城市名稱及對應的酒店
            var cityList = new List<City>();
            //呼叫自己寫的爬蟲程式
            var cityCrawler = new SimpleCrawler();
            cityCrawler.OnStart += (s, e) =>
              {
                  Console.WriteLine("爬蟲開始抓取的地址:" + e.Uri.ToString());
              };
            cityCrawler.OnError += (s, e) =>
            {
                Console.WriteLine("爬蟲抓取出現錯誤：" + e.Message);
            };
            cityCrawler.OnCompleted += (s, e) =>
              {
                  var links = Regex.Matches(e.PageSource, @"<a[^>]+href=""*(?<href>/hotel/[^>\s]+)""\s*[^>]*>(?<text>(?!.*img).*?)</a>", RegexOptions.IgnoreCase);
                  foreach(Match match in links)
                  {
                      var city = new City
                      {
                          CityName = match.Groups["text"].Value,
                          Uri = new Uri("http://hotels.ctrip.com" + match.Groups["href"].Value)
                      };
                      if (!cityList.Contains(city))
                          cityList.Add(city);
                      Console.WriteLine(city.CityName + "||" + city.Uri);
                  }

                  Console.WriteLine(e.PageSource);
                  Console.WriteLine("**********************************");
                  Console.WriteLine("爬蟲抓取完成");
                  Console.WriteLine("耗時：" + e.Milliseconds + " 毫秒");
                  Console.WriteLine("執行緒：" + e.ThreadID);
                  Console.WriteLine("地址：" + e.Uri.ToString());
              };
            cityCrawler.Start(new Uri(cityUrl)).Wait();
            Console.ReadKey();
        }
    }

    public class City
    {
        public string CityName { get; set; }
        public Uri Uri { get; set; }
    }
}

執行結果：
這裡寫圖片描述

.NET實現網路爬蟲

爬蟲的特徵和執行方式 User-Agent：主要用來將我們的爬蟲偽裝成瀏覽器。 Cookie：主要用來儲存爬蟲的登入狀態。連線數：主要用來限制單臺機器與服務端的連線數量。代理IP：主要用來偽裝請求地址，提高單機併發數量。爬蟲工作的方式可以歸納為兩

基於HttpClient4.5實現網路爬蟲

個人部落格站已經上線了，網址 www.llwjy.com ~歡迎各位吐槽~-------------------------------------------------------------------------------------------------

總結一下五種實現網路爬蟲的方法（一，基於socket通訊編寫爬蟲）

最近呢，由於實習需要呢，複習一遍爬蟲，前斷時間閉關刷題去了，也會把刷題心得總結成部落格分享給大家，比如java集合類特性及原始碼解析，作業系統資料結構的一些演算法，設計模式等，放心，肯定不會鴿的，雖然可能會晚一點寫。言歸正傳，java實現網路爬蟲一般有五種方法（據我所知，要是

基於HttpClient實現網路爬蟲~以百度新聞為例

在以前的工作中，實現過簡單的網路爬蟲，沒有系統的介紹過，這篇部落格就係統的介紹以下如何使用java的HttpClient實現網路爬蟲。關於網路爬蟲的一些理論知識、實現思想以及策略問題，可以參考百度百科“網路爬蟲”，那裡已經介紹的十分詳細，這裡也不再囉嗦

Java實現網路爬蟲001-抓取網頁

package com.okayisoft.okayspider.demo; import org.apache.commons.httpclient.HttpClient; import org.

用C#實現網路爬蟲（一）

1 private void ReceivedData(IAsyncResult ar) 2 { 3 RequestState rs = (RequestState)ar.AsyncState; //獲取引數 4 HttpWebRequest req = rs.Req; 5

python3實現網路爬蟲（3）--BeautifulSoup使用（2）

在這一次的內容中，我們繼續討論BeautifulSoup的一些操作，我們這次只討論幾個在實踐中用處特別大的幾個函式。這次我們將學習通過屬性查詢標籤的方法，標籤組的使用。我們一起回憶一下，基本上，我們見過的每個網站都會使用層疊樣式表（css，不懂的可以補一下網頁相關知識）

使用java實現網路爬蟲

之前學習j2ee的搭建，基本完成了。接下來想學習下爬蟲技術。要研究一項技術，首先得知道它的原理。那麼網路爬蟲的原理是什麼呢？網路爬蟲是一個自動提取網頁的程式，它為搜尋引擎從全球資訊網上下載網頁，是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網

Net開源網路爬蟲Abot介紹

.Net中也有很多很多開源的爬蟲工具，abot就是其中之一。Abot是一個開源的.net爬蟲，速度快，易於使用和擴充套件。專案的地址是https://code.google.com/p/abot/ 對於爬取的Html，使用的分析工具是CsQuery, CsQuery可以算是.net中實現的Jquery,

python執行緒池實現網路爬蟲

http://blog.daviesliu.net/2006/10/09/234822/ 首先是建立執行緒池：執行緒池主要由兩個佇列維護，執行緒佇列和任務佇列，執行緒佇列存放開啟的執行緒，任務佇列由使用者新增任務，開啟的執行緒一直去任務佇列中獲取任務 import Q

Python實現網路爬蟲

#!/usr/bin/env python # -*- coding: UTF-8 -*- # Author: GuangJun.Lv # Date: 2018/07/06 import urllib2 import json import os import time

python3實現網路爬蟲（2）--BeautifulSoup使用（1）

這一次我們來了解一下美味的湯--BeautifulSoup，這將是我們以後經常使用的一個庫，並且非常的好用。 BeautifuleSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲夢遊仙境》裡的同名詩歌。在故事中，這首歌是素甲魚唱的。就像它在仙境中的說法一樣，BeautifulS

python3實現網路爬蟲（1）--urlopen抓取網頁的html

準備開始寫一些python3關於爬蟲相關的東西，主要是一些簡單的網頁爬取，給身邊的同學入門看。首先我們向網路伺服器傳送GET請求以獲取具體的網頁，再從網頁中讀取HTML內容。我們大家平時都使用網路瀏覽器，並且它已經成為我們上網不可或缺的軟體。它建立資訊的資

淺談網路爬蟲中深度優先演算法和簡單程式碼實現

學過網站設計的小夥伴們都知道網站通常都是分層進行設計的，最上層的是頂級域名，之後是子域名，子域名下又有子域名等等，同時，每個子域名可能還會擁有多個同級域名，而且URL之間可能還有相互連結，千姿百態，由此構成一個複雜的網路。當一個網站的URL非常多的時候，我們務必要設計好URL，否則在後期的理解

搜片神器之DHT網路爬蟲的程式碼實現方法

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

淺談網路爬蟲中廣度優先演算法和程式碼實現

前幾天給大家分享了網路爬蟲中深度優先演算法的介紹及其程式碼實現過程，沒來得及上車的小夥伴們可以戳這篇文章——淺談網路爬蟲中深度優先演算法和簡單程式碼實現。今天小編給大家分享網路爬蟲中廣度優先演算法的介紹及其程式碼實現過程。廣度優先演算法和深度優先演算法恰好相反，這裡繼續以上圖的二叉樹為例。

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

Java基於httpclient獲取網頁資料，實現簡單網路爬蟲

1、pom檔案引入httpclient依賴 <dependency> <groupId>org.apache.httpcompon

利用Python網路爬蟲實現對網易雲音樂歌詞爬取

今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取原始碼；利用bs4解析原始碼，獲取歌曲名和歌曲ID；呼叫網易雲歌曲API，獲取歌詞；將歌詞寫入檔案，並存入本地。本文的目的是獲取網易雲音樂的歌詞，並將歌詞存入到本地檔案。整

網路爬蟲的簡易實現(1)

這個爬蟲主要實現對http://pic.yesky.com這個網站圖片的爬取； import urllib import urllib2 import re import time from bs4 import BeautifulSoup send_headers = {

.NET實現網路爬蟲

爬蟲的特徵和執行方式

相關推薦