PHP使用DomDocument抓取HTML內容

阿新 • • 發佈：2019-02-11

有時候會有需要從一個HTML頁面來分離出你需要的一些資料來進行處理。

當然自己分析檔案肯定可以，但是比較快速且方便的是使用正則表示式或者DOM。

鑑於正則表示式我不熟悉，所以我打算使用DOM來完成。

先談談我的需求，我要從一個HTML頁面的一個表格中提取資料並且將這個資料整理出來加入到MySQL資料庫中。

假設目標HTML中我感興趣的Table有3列，分別是ID，Name，內容。

index.php;

<?php

/*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */
    $urlTarget = "http://www.xxxx.com/targethtmlpage.html";

    require_once('ContentManager.php');

    //建立Dom物件，分析HTML檔案；
    $htmDoc = new DOMDocument;
    $htmDoc->loadHTMLFile($urlTarget );
    $htmDoc->normalizeDocument();

    //獲得到此文件中每一個Table物件；
    $tables_list = $htmDoc->getElementsByTagName('table');   

    //測試Table Count；
    $tables_count = $tables_list->length;
    foreach ($tables_list as $table)
    {
        //得到Table物件的class屬性
        $tableProp = $table->getAttribute('class');
        if ($tableProp == 'target_table_class')
        {
            $contentMgr = new ContentManager();
            $contentMgr->ParseFromDOMElement($table);
            
            //這裡myParser就完成了分析動作。然後就可以進行需要的操作了。
            //比如寫入MySQL。
            $contentMgr->SerializeToDB();
        }
    }
?>

ContentManager.php

<?php

/*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */

/**
 * Description of ContentParser
 *
 * @author xxxxx
 */
require_once('ContentInfo.php');
class ContentManager {
    //put your code here
    var $ContentList;
    public function __construct() {
        $this->ContentList = new ArrayObject();
    }
    
    public function ParseFromDOMElement(DOMElement $table)
    {
        $rows_list = $fundsTable->getElementsByTagName('tr');
        $rows_length = $rows_list->length;
        $index = 0;

        foreach ($rows_list as $row)
        {
            $contentInfo = new ContentInfo();
            $contentInfo->ParseFromDOMElement($row);
            $this->ContentList->append ($contentInfo);
        }

        //test how many contents parsed.
        $count = $this->fundsInfoArray->count();
        echo $count; 
    }
    
    public function SerializeToDB()
    {
        //寫入資料庫，程式碼略。
    }
}

?>

contentinfo.php

<?php

/*
 * To change this template, choose Tools | Templates
 * and open the template in the editor.
 */

/**
 * Description of ContentInfo
 *
 * @author xxxxx
 */
class ContentInfo {
    //put your code here
    var $ID;
    var $Name;
    var $Content;
    public function ParseFromDOMElement(DOMElement $row)
    {
        $cells_list = $row->getElementsByTagName('td');
        $cells_length = $row->length;
        
        $curCellIdx = 0;
        foreach ($cells_list as $cell)
        {
            switch ($curCellIdx++)
            {
                case 0:
                    $this->ID = $cell->nodeValue;
                    break;
                case 1:
                    $this->Name = $cell->nodeValue;
                    break;
                case 2:
                    $this->Content = $cell->nodeValue;
                    break;
            }
        }
    }
}

?>

一點小心得，DOM中每個Element都可以getAttribute取出屬性，這些屬性可以區分你分析的DOMObject。

舉例來說，比如上述我分析的Target HTML有很多表格，但是我發現目標表格的class屬性和其他表格是不一樣的。

所以，這個屬性就可以來區分我要分析的是哪個表格。

當然更多DOM的東西，大家可以去參考PHP Manual或者是，用IDE（NetBeans7.0就可以）轉到類宣告，看類介面。

有方法使用說明以及引數說明。可以參考參考。

抓取HTML內容的空格處理，資料庫空格亂碼

 這種編碼不能直接進行HtmlEncode 須將其替換成" ": Replace(" "," ") 否則在資料庫儲存的是160（char）正確的應該是32（char）解決方法：（將全形替換為半形） update [UMBookCraw

PHP使用DomDocument抓取HTML內容

有時候會有需要從一個HTML頁面來分離出你需要的一些資料來進行處理。當然自己分析檔案肯定可以，但是比較快速且方便的是使用正則表示式或者DOM。鑑於正則表示式我不熟悉，所以我打算使用DOM來完成。先談談我的需求，我要從一個HTML頁面的一個表格中提取資料並且將這個資料整理出來加

使用phpQuery 抓取HTML 頁面內容

phpQuery 使用phpQuery 可以對HTML 頁面進行類似於JQuery 一樣的操作。目的是進行HTML 資料的抓取，以及對HTML 檔案內容的補充等操作，完全就類似於jQuery 一樣的操作。 <?php require_once ".

PHP簡單爬蟲&HTML DOM解析器&抓取網站內容

PHP簡單爬蟲&HTML DOM解析器&抓取網站內容簡介為了能簡單地用PHP爬取網站上的內容，用了HTMLDOM解析器簡單地抓取內容。練習下如何地神奇。 simple_html_do

curl抓取網頁內容php

dem windows grep 網頁資源網頁爬蟲 url 工具 () 動態獲取 1.cURL curl是客戶端向服務器請求資源的工具 2.cURL使用場景網頁資源：網頁爬蟲 webservice數據接口資源：動態獲取接口數據天氣號碼歸屬地 ftp資源：下載ftp

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

程序抓取的內容和瀏覽器打開的內容不一樣

isnull request col 程序 http str ade referer empty 請求時帶上referer。 var message = new HttpRequestMessage(HttpMethod.Get, url); if (!string.I

Python使用lxml模塊和Requests模塊抓取HTML頁面的教程

有時 oms 世界 tel 4.0 取出 itl imp syntax Web抓取Web站點使用HTML描述，這意味著每個web頁面是一個結構化的文檔。有時從中獲取數據同時保持它的結構是有用的。web站點不總是以容易處理的格式，如 csv 或者 json 提供它們的數據

php抓取網頁內容，獲取網頁資料

php通過simple_html_dom實現抓取網頁內容，獲取核心網頁資料，將網頁資料寫入本地 xxx.json 檔案其程式碼實現邏輯： 1. 引入simple_html_dom.php檔案 require_once 'simple_ht

python 爬蟲如何用selenium抓取網頁內容

使用selenium爬取動態網頁資訊 Python selenium自動控制瀏覽器對網頁的資料進行抓取，其中包含按鈕點選、跳轉頁面、搜尋框的輸入、頁面的價值資料儲存、mongodb自動id標識等等等。首先介紹一下 Python selenium —自動化測試工

Scrapy 使用CrawlSpider整站抓取文章內容實現

剛接觸Scrapy框架，不是很熟悉，之前用webdriver+selenium實現過頭條的抓取，但是感覺對於整站抓取，之前的這種用無GUI的瀏覽器方式，效率不夠高，所以嘗試用CrawlSpider來實

[Python]網路爬蟲（二）：利用urllib2通過指定的URL抓取網頁內容

版本號：Python2.7.5，Python3改動較大，各位另尋教程。所謂網頁抓取，就是把URL地址中指定的網路資源從網路流中讀取出來，儲存到本地。類似於使用程式模擬IE瀏覽器的功能，把URL作為HTTP請求的內容傳送到伺服器端，然後讀取伺服器端的響應資源。在

python爬蟲爬取非同步載入網頁資訊（python抓取網頁中無法通過網頁標籤屬性抓取的內容）

1.問題描述最近由於學習內容的要求，需要從網頁上抓取一些資料來做分析報告，在看了python爬蟲的一些基礎知識之後就直接上手去網站上爬資料了。作為新手踩坑是無法避免，最近就遇到了一個比較難的問題：一般情況下，要抓去網頁上某個標籤上的內容，在通過urllib下

PHP抓取頁面內容

什麼叫抓取？通過PHP程式碼來實現，把其它網頁的內容抓取到本地，抓取的時候需要聯網才可以1.通過file_get_contents()函式實現抓取。前提：在php.ini中設定允許開啟一個網路的url地址。

php 抓取div內容

1. 取得指定網頁內的所有圖片：測試開新視窗複製程式碼列印? <?php //取得指定位址的內容，並儲存至text $text=file_get_contents('http://andy.diimii.com/'); //取得所有img標籤，

【網路爬蟲】【java】微博爬蟲（二）：如何抓取HTML頁面及HttpClient使用

一、寫在前面上篇文章以網易微博爬蟲為例，給出了一個很簡單的微博爬蟲的爬取過程，大概說明了網路爬蟲其實也就這麼回事，或許初次看到這個例子覺得有些複雜，不過沒有關係，上篇文章給的例子只是讓大家對爬蟲過程有所瞭解。接下來的系列裡，將一步一步地剖析每個過程。現

使用HttpComponents抓取網頁內容

匯入HttpComponents的包下載地址下載之後解壓，找到bin目錄，匯入這三個包就行或者是使用maven <dependency> <groupId

php抓取遠端內容並儲存到本地

<?php function getImage($url,$save_dir='',$filename='',$type=1){ if(trim($url)==''){ return array('file_name'=>'', 'save_path'=>

【PHP-網頁內容抓取】抓取網頁內容的兩種常用方法

說到網頁內容的抓取，最常用的兩種方式： 1.利用file_get_contents()函式，簡簡單單； 2.CURL抓取工具。CURL是一個非常強大的開源庫，支援很多協議，包括HTTP、FTP、TEL

python多執行緒抓取網頁內容並寫入MYSQL

自己的第一個多執行緒練習，中間踩了不少坑，程式寫的很渣，但是勉強能實現功能需求了，實際上抓取網頁是多執行緒在MYSQL寫入的時候是加了執行緒鎖的，實際上感覺就不是在多執行緒寫入了，不過作為第一個練習程式就這樣吧，後續部落格還會繼續更新優化版本。## htm

PHP使用DomDocument抓取HTML內容

相關推薦