C#對HTML文件的解析

阿新 • • 發佈：2019-01-06

相信很多人都有過HTML文件解析的需求。比如我們抓取了某1個網站的頁面資料，格式就是HTML的格式。以前我們都是通過正則表示式來進行解析，但是發現有一些問題。解析HTML文件時並不容易，如果文件的格式稍有變化很可能就不能正確的匹配。因此我們需要專門的工具來幫助我們輕鬆的解析HTML文件。

其實已經有一個非常不錯的工具提供了。比如HtmlAgilityPack。它可以幫助我們解析HTML文件就像用XmlDocument類來解析XML一樣輕鬆、方便。

好了，下面提供一個足夠Simple的例子給大家。大家可以在此基礎之上，舉一反三。

比如要解析下面的HTML。

<table>
	<thead>
		<tr>
			<th>時間</th>
			<th>型別</th>
			<th>名稱</th>
			<th>單位</th>
			<th>金額</th>
		</tr>
	</thead>
	<tbody>
		<tr>
			<td>2013-12-29</td>
			<td>發票1</td>
			<td>採購物資發票1</td>
			<td>某某公司1</td>
			<td>123元</td>
		</tr>
		<tr>
			<td>2013-12-29</td>
			<td>發票2</td>
			<td>採購物資發票2</td>
			<td>某某公司2</td>
			<td>321元</td>
		</tr>
	<tbody>
</table>

以控制檯專案為例，首先要引用HtmlAgilityPack.dll檔案，這樣才能使用dll裡面的類和方法。

        static void Main(string[] args)
        {
            string strWebContent = @"<table><thead>
            <tr>
              <th>時間</th>
              <th>型別</th>
              <th>名稱</th>
              <th>單位</th>
              <th>金額</th>
            </tr>
            </thead>
            <tbody>" +
            @"<tr>
              <td>2013-12-29</td>
              <td>發票1</td>
              <td>採購物資發票1</td>
              <td>某某公司1</td>
              <td>123元</td>
            </tr>" +
            @"<tr>
              <td>2013-12-29</td>
              <td>發票2</td>
              <td>採購物資發票2</td>
              <td>某某公司2</td>
              <td>321元</td>
            </tr>
            </tbody>
          </table>
        ";

            List<Data> datas = new List<Data>();//定義1個列表用於儲存結果

            HtmlDocument htmlDocument = new HtmlDocument();
            htmlDocument.LoadHtml(strWebContent);//載入HTML字串，如果是檔案可以用htmlDocument.Load方法載入

            HtmlNodeCollection collection = htmlDocument.DocumentNode.SelectSingleNode("table/tbody").ChildNodes;//跟Xpath一樣，輕鬆的定位到相應節點下
            foreach (HtmlNode node in collection)
            {
                //去除\r\n以及空格，獲取到相應td裡面的資料
                string[] line = node.InnerText.Split(new char[] { '\r', '\n', ' ' }, StringSplitOptions.RemoveEmptyEntries);

                //如果符合條件，就載入到物件列表裡面
                if (line.Length == 5)
                    datas.Add(new Data() { 時間 = line[0], 型別 = line[1], 名稱 = line[2], 單位 = line[3], 金額 = line[4] });
            }

            //迴圈輸出檢視結果是否正確
            foreach (var v in datas)
            {
                Console.WriteLine(string.Join(",", v.時間, v.型別, v.名稱, v.單位, v.金額));
            }
        }

    /// <summary>
    /// 定義的實體類用於接收資料
    /// </summary>
    public class Data
    {
        public string 時間 { get; set; }
        public string 型別 { get; set; }
        public string 名稱 { get; set; }
        public string 單位 { get; set; }
        public string 金額 { get; set; }
    }

上面就是完整的程式碼，註釋也很清楚。

最後看一下解析的結果：

C#對HTML文件的解析

相信很多人都有過HTML文件解析的需求。比如我們抓取了某1個網站的頁面資料，格式就是HTML的格式。以前我們都是通過正則表示式來進行解析，但是發現有一些問題。解析HTML文件時並不容易，如果文件的格式稍有變化很可能就不能正確的匹配。因此我們需要專門的工具來幫助我們輕鬆的解析

C#對XML文件的各種操作方法

C# XML文件的各種操作方法內容來自越康體育分享。 XML：Extensible Markup Language（可擴展標記語言）的縮寫，是用來定義其它語言的一種元語言，其前身是SGML(Standard Generalized Markup Language，標準通用標

c++對txt文件的讀取與寫入

lin 一個離開 term file 例子內容存儲 turn 轉自：http://blog.csdn.net/lh3325251325/article/details/4761575 1 #include <iostream> 2 #incl

HTML文件解析

2.1 <!DOCTYPE! html> 什麼是<!DOCTYPE html>？在HTML文件初，往往會有這麼一句話<!DOCTYPE html>，那麼它的意義是什麼呢？它是html5標準網頁宣告,全稱為Document Type HyperTex

C#解析html文件

當我們需要解析一個web頁面的時候，如果非常簡單，可以用字串查詢的方式，複雜一點可以用正則表示式，但是有時候正則很麻煩的，因為html程式碼本身就比較麻煩，像常用的img標籤，這個東東到了瀏覽器上就沒了閉合標籤（一直還沒搞懂為什麼），想用XML解析，也是同樣的原因根本解析

html加C#上傳文件

eat 服務器 request har directory org ont exist 文件流最近在學上傳文件部分內容，包括創建文件夾，設置文件夾屬性，上傳文件並保存。前臺代碼： <html xmlns="http://www.w3.org/1999/xhtml"

SQLite第八課 auth.c授權文件解析

sqlite3_set_authorizer sqlite3authcheck代碼剖析該文件包含了實現sliqte3_set_authorizer函數的代碼。對於SQLite庫來說，該功能是可選的。嵌入式系統不需要該功能，可以通過預編譯宏-DSQLITE_OMIT_AUTHORIZATION=1來禁用該選項。

C#儀器數據文件解析-RTF文件

for win pre logs 陌生實現 plain windows系統 doc RTF格式文件大家並不陌生，但RTF文件的編碼、解碼卻很難，因為RTF文件是富文本格式的，即文件中除了包含文本內容，還包含文本的格式信息，而這些信息並沒有像後來的docx等采用XML來隔離

C#儀器數據文件解析-Excel文件（xls、xlsx）

sheet 解析工作站 row 問題 .get 壓縮安裝 shee 不少儀器工作站可以將數據導出為Excel文件，包括97-2003版本的xls文件和2007+的xlsx文件。采集Excel文件相比采集pdf文件更容易、程序更健壯，畢竟Excel中數據有明確的行、列

C#儀器數據文件解析-Word文件（doc、docx）

new read ffi 數據文件 word 不同軟件情況下如果不少儀器數據報告輸出為Word格式文件，同Excel文件，Word文件doc和docx的存儲格式是不同的，相應的解析Word文件的方式也類似，主要有以下方式： 1.通過MS Word應用程序的DCOM

使用pull方式和sax方式對xml文件進行解析

tostring 需要 nts tag .com version thp response pri 這是我自己設置的xml文件用一下方式獲取它的內容 try{ OkHttpClient client = new OkHttpClient(); Request

C#Json文件解析，寫入，正則表示式轉換。Unity建立Json文件以及寫入。

C#: 解析：解析工具：LitJson，JsonConvert &nb

使用JSOUP解析HTML文件

這篇文章主要介紹了Jsoup如何解析一個HTML文件、從檔案載入文件、從URL載入Document等方法，對Jsoup常用方法做了詳細講解，最近提供了一個示例供大家參考使用DOM方法來遍歷一個文件從元素抽取屬性，文字和HTML 獲取所有連結解析和遍歷一個H

【XML解析】（1）Java下使用JAXP中的DOM解析方式對XML文件進行解析

關於JAXP、DOM、SAX：何為JAXP？ JAXP(JavaApi for Xml Programming) – sun公司的一套操作XML的API。 JAXP中分為三種解析方式： DOM解析、SAX解析、StAX

dom解析方式對xml文件進行操作

<span style="font-size:14px;"><?xml version="1.0" encoding="utf-8" standalone="no"?><書架> <書> <

使用Python中的HTMLParser、cookielib抓取和解析網頁、從HTML文件中提取連結、影象、文字、Cookies .

對搜尋引擎、檔案索引、文件轉換、資料檢索、站點備份或遷移等應用程式來說，經常用到對網頁(即HTML檔案)的解析處理。事實上，通過 Python語言提供的各種模組，我們無需藉助Web伺服器或者Web瀏覽器就能夠解析和處理HTML文件。本文上篇中，我們介紹了一個可以幫助簡化開啟

瀏覽器解析HTML文件的資源並下載

<img />,<style>這些資源是並行請求與載入。 <script>指令碼是同步請求與載入，阻塞載入。載入完成並執行後再繼續解析HTML。動態<script>是非同步載入，就是說可以同時載入其他資源。關於<script>的執行，分

[XML文件解析]libxml2對XML檔案的建立、解析、查詢、修改

xmlXPathObjectPtr get_nodeset(xmlDocPtr doc, const xmlChar *xpath) { xmlXPathContextPtr context; xmlXPathObjectPtr result; context = xmlXP

【轉載】JAVA對XML文件的讀寫(有具體的代碼和解析

導入處理讀寫一個掃描表示 for xml ray .html 原文：https://www.cnblogs.com/yangliguo/p/7398996.html XML 指可擴展標記語言（EXtensible Markup Language），是獨立於軟件和硬

Html中嵌套其他HTML文件的幾種方法（轉）

java mar net rip gin bsp ace wid style 給大家整理了3個方法，一個是HTML的iframe標簽，別兩個是JS引用。比如要在arr.html文件裏引用index.html文件，方法如下。 HTML引用方法： <iframe na

C#對HTML文件的解析

相關推薦