抓取網頁資料 A標籤的HREF 值

阿新 • • 發佈：2019-02-03

在工作中，我們有時候需要從特定的網頁中抓取我們想要的資料，由於工作的需要，我給大家推薦一個專門的抓取類：Winista.HtmlParser.dll

當我們需要從有規律的網頁中提取資料時，如table tr td; ul li之類的，如果用正則表示式，或者做字串的處理，會非常頭痛。

上面的這個類可以解決此類問題。

首先，在工程檔案的BIN目錄裡新增引用這個類，然後在頁面中新增一些名稱空間，

using Winista.Text.HtmlParser.Visitors;
using Winista.Text.HtmlParser;
using Winista.Text.HtmlParser.Util;

using Winista.Text.HtmlParser.Filters;

using Winista.Text.HtmlParser.Tags;

先上傳一個類，包含了二個經常用到的方法

/// <summary> /// 根據原始碼和標籤名稱得到節點列表 /// </summary> /// <param name="_sourceStr">原始碼</param> /// <param name="_tagName">標籤名稱</param> /// <returns></returns> public static NodeList GetNode(string _sourceStr, string _tagName) { try { NodeFilter filter; Parser parser = Parser.CreateParser(_sourceStr, "utf-8"); //utf-8 filter = new TagNameFilter(_tagName); NodeList nodeList = parser.Parse(filter); return nodeList; } catch { return null; } } /// <summary> /// 根據原始碼，標籤名，屬性名，屬性值返回節點列表 /// </summary> /// <param name="_sourceStr">原始碼</param> /// <param name="_tagName">標籤名</param> /// <param name="_tagAttributeName">屬性名</param> /// <param name="_tagAttributeValue">屬性值</param> /// <returns></returns> public static NodeList GetNode(string _sourceStr, string _tagName, string _tagAttributeName, string _tagAttributeValue) { try { NodeFilter filter; Parser parser = Parser.CreateParser(_sourceStr, "utf-8"); //utf-8 filter = new AndFilter(new TagNameFilter(_tagName), new HasAttributeFilter(_tagAttributeName,_tagAttributeValue )); NodeList nodeList = parser.Parse(filter); return nodeList; } catch { return null; } }

下面是具體的呼叫

using System; using System.Configuration; using System.Data; using System.Linq; using System.Web; using System.Web.Security; using System.Web.UI; using System.Web.UI.HtmlControls; using System.Web.UI.WebControls; using System.Web.UI.WebControls.WebParts; using System.Xml.Linq; using System.Data.SqlClient; using Winista.Text.HtmlParser.Visitors; using Winista.Text.HtmlParser; using Winista.Text.HtmlParser.Util;//包含ParserExceptiongjgjg using Winista.Text.HtmlParser.Filters; using Winista.Text.HtmlParser.Tags; public partial class _Default : System.Web.UI.Page { protected void Page_Load(object sender, EventArgs e) { } /// <summary> /// /// </summary> /// <param name="sender"></param> /// <param name="e"></param> protected void Button1_Click(object sender, EventArgs e) { string tempStr = string.Empty; ITag tag; string strSourceCode = "<ul class=/"list14_Lgra/"><li>"+ "<a href="/" mce_href="/""http://money.163.com/special/002549OJ/fushikangzhibian.html/">財經博見：富士康不是血汗工廠</a></li>"+ "<li><a href="/" mce_href="/""http://blog.163.com/su1286@126/blog/static/2545306620104212318664//">蘇東：徵收房產稅絕對降不了房價</a></li>"+ "<li><a href="/" mce_href="/""http://sunlijianblog.blog.163.com/blog/static/507251042010421111629306//">孫立堅：如何看待鼓勵民資的新36條？</a></li>"+ "</ul>"; NodeList nodeList = Lottery_tools.GetNode(strSourceCode,"a"); if (nodeList != null) { for (int i = 0; i < nodeList.Count; i++) { tag = nodeList[i] as ITag; tempStr += tag.GetAttribute("href")+"|"; //所有A標籤的href值的集合 } } } }

有時間再把抓取table,ul的也整理一下，希望對大家有用，網上關於這方面的資料也有，但不是很全，主要還是靠自己摸索，

抓取網頁資料 A標籤的HREF 值

抓取網頁資料 A標籤的HREF 值

PHP抓取頁面中a標籤的href屬性值以及a中間內容

Jsoup抓取到頁面A標籤中的href路徑

有搜尋條件根據url抓取網頁資料(java爬取網頁資料)

python抓取網頁資料處理後視覺化

python抓取動態資料 A股上市公司基本資訊

Python抓取網頁資料的終極辦法

python的BeautifulSoup實現抓取網頁資料

Java抓取網頁資料（原網頁+Javascript返回資料）

C# 正則表示式抓取網頁上某個標籤的內容，並替換連結地址和圖片地址

Python爬蟲 BeautifulSoup抓取網頁資料並儲存到資料庫MySQL

node.js 小爬蟲抓取網頁資料（2）

抓取網頁資料並解析Android

goLang 多執行緒抓取網頁資料

【php網頁爬蟲】php抓取網頁資料

a標籤href動態取值，自動補全問題

kettle抓取網頁上的資料儲存到資料表中

php抓取網頁內容，獲取網頁資料

如何獲取字串中最後一個a標籤href的值

a標籤傳值如何隱藏資料

抓取網頁資料 A標籤的HREF 值

相關推薦