C#網頁采集數據的幾種方式(WebClient、WebBrowser和HttpWebRequest/HttpWebResponse)

阿新 • • 發佈：2017-07-28

var complete sys bre nth ews 寫入保存 new

獲取網頁數據有很多種方式。在這裏主要講述通過WebClient、WebBrowser和HttpWebRequest/HttpWebResponse三種方式獲取網頁內容。

這裏獲取的是包括網頁的所有信息。如果單純需要某些數據內容。可以自己構造函數甄別摳除出來！一般的做法是根據源碼的格式，用正則來過濾出你需要的內容部分。

一、通過WebClient獲取網頁內容

這是一種很簡單的獲取方式，當然，其它的獲取方法也很簡單。在這裏首先要說明的是，如果為了實際項目的效率考慮，需要考慮在函數中分配一個內存區域。大概寫法如下

[csharp] view plain copy print?

//MemoryStream是一個支持儲存區為內存的流。
byte[] buffer = new byte[1024];
using (MemoryStream memory = new MemoryStream())
{
int index = 1, sum = 0;
while (index * sum < 100 * 1024)
{
index = reader.Read(buffer, 0, 1024);
if (index > 0)
{
memory.Write(buffer, 0, index);

sum += index;
}
}
//網頁通常使用utf-8或gb2412進行編碼
Encoding.GetEncoding("gb2312").GetString(memory.ToArray());
if (string.IsNullOrEmpty(html))
{
return html;
}
else
{
Regex re = new Regex(@"charset=(? charset[/s/S]*?)[ |‘]");
Match m = re.Match(html.ToLower());
encoding = m.Groups[charset].ToString();
}
if (string.IsNullOrEmpty(encoding) || string.Equals(encoding.ToLower(), "gb2312"))
{
return html;
}
}

好了，現在進入正題，WebClient獲取網頁數據的代碼如下 [csharp] view plain copy print?

//using System.IO;
try
{
WebClient webClient = new WebClient();
webClient.Credentials = CredentialCache.DefaultCredentials;//獲取或設置用於向Internet資源的請求進行身份驗證的網絡憑據
Byte[] pageData = webClient.DownloadData("http://www.360doc.com/content/11/0427/03/1947337_112596569.shtml");
//string pageHtml = Encoding.Default.GetString(pageData); //如果獲取網站頁面采用的是GB2312，則使用這句
string pageHtml = Encoding.UTF8.GetString(pageData); //如果獲取網站頁面采用的是UTF-8，則使用這句
using (StreamWriter sw = new StreamWriter("e:\\ouput.txt"))//將獲取的內容寫入文本
{
htm = sw.ToString();//測試StreamWriter流的輸出狀態，非必須
sw.Write(pageHtml);
}
}
catch (WebException webEx)
{
Console.W
}

二、通過WebBrowser控件獲取網頁內容

相對來說，這是一種最簡單的獲取方式。拖WebBrowser控件進去，然後匹配下面這段代碼

[csharp] view plain copy print?

WebBrowser web = new WebBrowser();
web.Navigate("http://www.163.com");
web.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(web_DocumentCompleted);
void web_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
{
WebBrowser web = (WebBrowser)sender;
HtmlElementCollection ElementCollection = web.Document.GetElementsByTagName("Table");
foreach (HtmlElement item in ElementCollection)
{
File.AppendAllText("Kaijiang_xj.txt", item.InnerText);
}
}

三、使用HttpWebRequest/HttpWebResponse獲取網頁內容

這是一種比較通用的獲取方式。

[csharp] view plain copy print?

public void GetHtml()
{
var url = "http://www.360doc.com/content/11/0427/03/1947337_112596569.shtml";
string strBuff = "";//定義文本字符串，用來保存下載的html
int byteRead = 0;
HttpWebRequest webRequest = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse webResponse = (HttpWebResponse)webRequest.GetResponse();
//若成功取得網頁的內容，則以System.IO.Stream形式返回，若失敗則產生ProtoclViolationException錯誤。在此正確的做法應將以下的代碼放到一個try塊中處理。這裏簡單處理
Stream reader = webResponse.GetResponseStream();
///返回的內容是Stream形式的，所以可以利用StreamReader類獲取GetResponseStream的內容，並以StreamReader類的Read方法依次讀取網頁源程序代碼每一行的內容，直至行尾（讀取的編碼格式：UTF8）
StreamReader respStreamReader = new StreamReader(reader,Encoding.UTF8);
///分段，分批次獲取網頁源碼
char[] cbuffer = new char[1024];
byteRead = respStreamReader.Read(cbuffer,0,256);
while (byteRead != 0)
{
string strResp = new string(char,0,byteRead);
strBuff = strBuff + strResp;
byteRead = respStreamReader.Read(cbuffer,0,256);
}
using (StreamWriter sw = new StreamWriter("e:\\ouput.txt"))//將獲取的內容寫入文本
{
htm = sw.ToString();//測試StreamWriter流的輸出狀態，非必須
sw.Write(strBuff);
}
}

C#網頁采集數據的幾種方式(WebClient、WebBrowser和HttpWebRequest/HttpWebResponse)

var complete sys bre nth ews 寫入保存 new 獲取網頁數據有很多種方式。在這裏主要講述通過WebClient、WebBrowser和HttpWebRequest/HttpWebResponse三種方式獲取網頁內容。這裏獲取的是包括網頁

C++多態有哪幾種方式？

cti 早綁定時間對象區別父類不同的版本內幕 C++多態方式：（1）靜態多態（重載，模板）是在編譯的時候，就確定調用函數的類型。（2）動態多態（覆蓋，虛函數實現）在運行的時候，才確定調用的是哪個函數，動態綁定。運行基類指針指向派生類的對象，並調用派生類

C# 連接 Oracle 的幾種方式

微軟公司客戶 access unicode address 空間 cti 下載 oracle客戶端一：通過System.Data.OracleClient(需要安裝Oracle客戶端並配置tnsnames.ora)1. 添加命名空間System.Data.Oracl

網頁自適應的幾種方式。

span color 方式一點 flex nbsp minimum 高度 size 微信小程序的像素大小使用rpx，rpx換算px屏幕寬度/750。傳統的自適應布局有幾種：響應式，根據屏幕大小配置多個樣式文件。使用em,rem.rem是頁面的font-size尺寸，

Objective-C遍歷資料的幾種方式

遍歷的幾種方式： 1、通過索引，如通過陣列下標來遍歷陣列 -objectAtIndex() 2、使用NSEnumerator容器來存放資料項，通過nextObject來獲取下一個資料 3、使用快速列舉（os x10.5以後） 4、最新的程式碼塊方法（os x 10.5以後）

C++ Vector遍歷的幾種方式及效能對比

幾種容器遍歷方法 1.迭代器 for (std::vector<int>::iterator it = vecTest.begin(); it != vecTest.end(); ++it) { tempNum = *it; } 2.C++11 新增關鍵字auto f

WinForms C# ComboBox 設定值的幾種方式 « 關於網路那些事...

WinForms C# ComboBox 設定值的幾種方式範例說明下列情況: 如何在 combobox 賦予 items 預設值，如何從DB取值再加入combo

c#獲取系統資訊的幾種方式

1.Environment 這個沒什麼好說的，最簡單的方法 //提供有關當前環境和平臺的資訊以及操作它們的方法。此類不能被繼承。 //獲取或設定當前工作目錄的完全限定路徑。 public static string CurrentDir

C#實現檔案下載的幾種方式

下面是四種實現檔案下載的方式: using System; using System.Data; using System.Configuration; using System.Web; using System.Web.Security; using System.Web.UI; using Syste

網頁底部固定的幾種方式

####1，判斷高度function footerAuto() { var _wh = $(window).height(); var _dh = $(document).height();

C#執行非同步操作的幾種方式比較和總結

原文地址：http://www.cnblogs.com/durow/p/4826653.html 轉載此文的目的就是想讓自己記住曾經尋找過這些資料感謝這位博主的無私奉獻 0x00 引言之前寫程式的時候在遇到一些比較花時間的操作例如HTTP請求時，總是會new一

python和C語言互相呼叫的幾種方式

1 2 3 4 5 6 7 8 9 版權申明：本文為博主窗戶(Colin Cai)原創，歡迎

Redis持久化策略（RDB &AOF） redis持久化的幾種方式 1、前言

redis持久化的幾種方式 1、前言 Redis是一種高階key-value資料庫。它跟memcached類似，不過資料可以持久化，而且支援的資料型別很豐富。有字串，連結串列，集合和有序集合。支援在伺服器端計算集合的並，交和補集(difference)等，還支援多種

Python操作excel的幾種方式--xlrd、xlwt、openpyxl

釋出時間:2016-05-13, 17:54:19 最後更新:2016-05-13, 21:29:30 在處理excel資料時發現了xlwt的侷限性–不能寫入超過65535行、256列的資料（因為它只支援Excel 2003及之

JAVA中幾種集合(List、Set和Map)的區別

Java中的集合包括三大類，它們是Set、List和Map，它們都處於java.util包中，Set、List和Map都是介面，它們有各自的實現類。Set的實現類主要有HashSet和TreeSet，L

cocos2d-x 中新增顯示文字的三種方式 LabelTTF 、LabelBMFont 和 LabelAtlas

在 cocos2d-x 中有三個類可以在層或精靈中新增文字： LabelTTFLabelBMFontLabelAtlas LabelTTF 直接支援使用 TTF 字型檔，可以支援全部的中文，但是效率稍低。LabelBMFont 適合顯示特定的文字，通過預先將文字生成圖片，

C#打開SDE數據庫的幾種方式總結

tex 用戶 ops 總結 param word editor conn tor 轉自謝燦軟件原文 C#打開SDE數據庫的幾種方式總結 1.通過指定連接屬性參數打開數據庫 /// <param name="server">數據庫服務器名&

C# 連接SQL Server數據庫的幾種方式--server+data source等方式

如何使用 sel 特定 html 項目 true -- 計算機技術分享 C# 連接SQL Server數據庫的幾種方式--server+data source等方式如何使用Connection對象連接數據庫？對於不同的.NET數據提供者，ADO.NET采用不同

asp.net C# 獲取網頁原始碼的幾種方式

1 方法 System.Net.WebClient aWebClient = new System.Net.WebClient(); aWebClient.Encoding = System.Text.Encodin

C# 網頁彈出對話方塊的幾種方式

1.ClientScript.RegisterStartupScript(this.GetType(), "", "<script>alert('第一行');</script>"); 2.Page.RegisterStartupScript(""

C#網頁采集數據的幾種方式(WebClient、WebBrowser和HttpWebRequest/HttpWebResponse)

一、通過WebClient獲取網頁內容

二、通過WebBrowser控件獲取網頁內容

三、使用HttpWebRequest/HttpWebResponse獲取網頁內容

相關推薦