PHP中使用DOMDocument來處理HTML、XML文件的示例

阿新 • • 發佈：2021-04-30

其實從php5開始，PHP就為我們提供了一個強大的解析和生成XML相關操作的類，也就是我們今天要www.cppcns.com講的 DOMDocument 類。不過我估計大部分人在爬取網頁時還是會喜歡用正則去解析網頁內容，學了今天的這個類下回就可以嘗試下使用這個PHP自帶的方式來進行解析分析了。

解析HTML

// 解析 HTML
$baidu = file_get_contents('https://www.baidu.com');

$doc = new DOMDocument();
@$doc->loadHTML($baidu);

// 百度輸出框
$inputSearch = $doc->getElementById('kw');
var_dump($inputSearch);

// object(DOMElement)#2 
//     ....

echo $inputSearch->getAttribute('name'),PHP_EOL; // wd

// 獲取所有圖片的連結
$allImageLinks = [];
$imgs = $doc->getElementsByTagName('img');
foreach($imgs as $img){
    $allImageLinks[] = $img->getAttribute('src');
}

print_r($allImageLinks);

// Array
// (
//     [0] => //www.baidu.com/img/baidu_jgylogo3.gif
//     [1] => //www.baidu.com/img/bd_logo.png
//     [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif
// )

// 利用 parse_url 分析連結
foreach($allImageLinks as $link){
    print_r(parse_url($link));
}

// Arr 
程式設計客棧ay
// (
//     [host] => www.baidu.com
//     [path] => /img/baidu_jgylogo3.gif
// )
// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/bd_logo.png
// )
// Array
// (
//     [scheme] => http
//     [host] => s1.bdstatic.com
//     [path] => /r/www/cache/static/global/img/gs_237f015b.gif
// )

是不是感覺好清晰，好有面向物件的感覺。就像第一次使用 ORM庫來進行

資料庫操作一樣的感覺。我們一段一段來看。

$baidu = file_get_contents('https://www.baidu.com');

$doc = new DOMDocument();
@$doc->loadHTML($baidu);

首先是載入文件內容，這個比較好理解，直接使用 loadHTML() 方法載入 HTML 內容。它還提供了其它的幾個方法，分別是：load() 從一個檔案載入XML；loadXML() 從字串載入XML；loadHTMLFile() 從檔案載入HTML。

// 百度輸出框
$inputSearch = $doc->getElementById('kw');
var_dump($inputSearch);

// object(DOMElement)#2 
//     ....

echo $inputSearch->getAttribute('name'),PHP_EOL; // wd

// 百度輸出框
$inputSearch = $doc->getElementById('kw');
var_dump($inputSearch);

// object(DOMElement)#2 
//     ....

echo $inputSearch->getAttribute('name'),PHP_EOL; // wd

接下來我們使用和前端 js 一樣的 DOM 操作API來操作HTML裡面的元素。這個例子中就是獲取百度的文字框，直接使用 getElementById() 方法獲得id為指定內容的 DOMElement 物件。然後就可以獲取它的值、屬性之類的內容了。

// 獲取所有圖片的連結
$allImageLinks = [];
$imgs = $doc->getElementsByTagName('img');
foreach($imgs as $img){
    $allImageLinks[] = $img->getAttribute('src');
}

print_r($allImageLinks);

// Array
// (
//     [0] => //www.baidu.com/img/baidu_jgylogo3.gif
//     [1] => //www.baidu.com/img/bd_logo.png
//     [2] =>gMQcjmB http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif
// )

// 利用 parse_url 分析連結
foreach($allImageLinks as $link){
    print_r(parse_url($link));
}

// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/baidu_jgylogo3.gif
// )
// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/bd_logo.png
// )
// Array
// (
//     [scheme] => http
//     [host] => s1.bdstatic.com
//     [path] => /r/www/cache/static/global/img/gs_237f015b.gif
// )

這一段例子則是獲取HTML文件中所有的圖片連結。相比正則來說，是不是方便很多，而且程式碼本身就是自解釋的，不用考慮正則的匹配失效的問題。配合另外一個PHP中自帶的 parse_url() 方法也能非常方便地對連結進行分析，提取自己想要的內容。

XML的解析和對HTML的解析也是類似的，都使用 DOMDocument 和 DOMElement 提供的這個方法介面就可以很方便的進行解析了。那麼我們想要生成一個標準格式的XML呢？當然也非常的簡單，不需要再去拼接字串了，使用這個類一樣的進行物件化的操作。

生成一個XML

// 生成一個XML文件
$xml = new DOMDocument('1.0','UTF-8');

$node1 = $xml->createElement('First','This is First Node.');
$node1->setAttribute('type','1');

$node2 = $xml->createElement('Second');
$node2->setAttribute('type','2');
$node2_child = $xml->createElement('Second-Childwww.cppcns.com','This is Second Node Child.');
$node2->appendChild($node2_child);

$xml->appendChild($node1);
$xml->appendChild($node2);
print $xml->saveXML();

/*
<?xml version="1.0" encoding="UTF-8"?>
<First type="1">This is First Node.</First>
<Second type="2"><Second-Child>This is Second Node Child.</Second-Child></Second>
*/

其實只要有一點點的前端 JS 的基礎都不難看出這段程式碼的含義。使用 createElement() 方法創造 DOMElement 物件，然後就可以為它新增屬性和內容。使用 appendChild() 方法就可以www.cppcns.com為當前的 DOMElement 或者 DOMDocument 新增下級節點。最後使用 saveXML() 就能夠生成標準的XML格式內容了。

總結

通過上面兩個簡單的小例子，相信大家已經對這個 DOMDocument 操作XML類檔案解析的方式非常感興趣了。不過相對於正則解析的方式它們的效能有多大的差異並沒有找到相關的測試，不過一般正常的情況下網站的HMTL文件都不會太大，畢竟各個網站也會考慮自身的載入速度，如果文件非常大的話使用者體驗也會很差，所以這套介面用來進行日常爬蟲的分析處理工作基本是沒有任何問題的。

測試程式碼： github.com/zhangyue050…

以上就是PHP中使用DOMDocument來處理HTML、XML文件的示例的詳細內容，更多關於PHP DOMDocument處理HTML、XML的資料請關注我們其它相關文章！

PHP中使用DOMDocument來處理HTML、XML文件的示例

解析HTML

生成一個XML

總結

PHP中使用DOMDocument來處理HTML、XML文件的示例

織夢最新版後臺一鍵更新網站、更新文件HTML、新增文件卡死500的解決方法

Python在字串中處理html和xml的方法

2.17在字串中處理html和xml

php 中的訊號處理操作例項詳解

PHP中類與物件功能、用法例項解讀

PHP中的異常處理機制深入講解

Python 讀取二進位制、HTML 、XML 格式儲存的 Excel 檔案

HTML、XML、XHTML 之間的區別

php中加密解密DES類的簡單使用方法示例

win10系統在word、excel文件中打字總卡頓怎麼回事

C#開啟word進行操作，文字替換、書籤處插入圖片、讀取文件中的表格、修改表格資料

根據XML文件 PHP實現SOAP請求WSDL

jQuery實現的解析本地 XML 文件操作示例

Node Mongoose用法詳解【Mongoose使用、Schema、物件、model文件等】

c#對XML文件的建立與增刪改查的示例程式碼

XML 05：利用dom4j生成xml文件

Python利用名稱空間解析XML文件

通過swagger2markup+asciidoctorj生成html和pdf文件並解決asciidoctorj生成的pdf檔案中文顯示不全問題（maven方式及java程式碼方式）

HTML基礎7--文件與網站架構

PHP中使用DOMDocument來處理HTML、XML文件的示例

解析HTML

生成一個XML

總結

相關推薦