PHP xpath提取網頁資料內容程式碼解析

阿新 • • 發佈：2020-07-17

想要使用xpath來解析html內容,PHP自帶兩個物件

DOMDocument，DOMXpath，其中初始化 loadHtml一般都會報很多警告，但是並不影響使用，用@遮蔽錯誤。

  /**
   * 初始化DOMXpath物件
   *
   * @param [type] $content 網頁內容
   * @param [array] $pathinfo 匹配資訊
   *
   * @return void
   */
  private function _createXpathObj($content,$patinfo)
  {
    // 如果沒有xpath配置項，不初始化xpath
    if (!$this->_existsXpathParse($patinfo)) {
      return;
    }
    try {
      $dom = new \DOMDocument();
      @$dom->loadHtml($content);
      $dom->normalize();
      $xpath = new \DOMXpath($dom);
      $this->xpathObj = $xpath;
    } catch (\Exception $e) {
      getService('logger')->warning('Parse html fail',['content' => $content]);
    }
  }

其中 $node 為 DOMElement 物件。

  /**
   * 獲取Xpath解析值
   *
   * @param [type] $pat 匹配模式
   *
   * @return string
   */
  private function _getXpathField($pat)
  {
    $objs = $this->xpathObj->query($pat);
    if ($objs->length > 0) {
      $node = $objs->item(0);
      $outerHTML = $node->ownerDocument->saveHTML($node);
      return trim($outerHTML);
      # 作為示例 輸出innerhtml
      //$innerHTML = '';
      //foreach ($node->childNodes as $childNode){
      //   $innerHTML .= $childNode->ownerDocument->saveHTML($childNode);
      //}
      //return $innerHTML; 
      # 作為示例 輸出文字不含標籤
      //return $node->textContent; //$node->nodeValue;
    }
    return '';
  }

示例

<?php
    $dom = new DOMDocument('1.0','UTF-8');
    $dom->loadHTML('<html><body><div><p>p1</p><p>p2</p></div></body></html>');    
    $node = $dom->getElementsByTagName('div')->item(0);    
    $outerHTML = $node->ownerDocument->saveHTML($node);    
    $innerHTML = '';
    foreach ($node->childNodes as $childNode){
        $innerHTML .= $childNode->ownerDocument->saveHTML($childNode);
    }
    echo '<h2>outerHTML: </h2>';
    echo htmlspecialchars($outerHTML);
    echo '<h2>innerHTML: </h2>';
    echo htmlspecialchars($innerHTML);    
?>

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

PHP xpath提取網頁資料內容程式碼解析

想要使用xpath來解析html內容,PHP自帶兩個物件 DOMDocument，DOMXpath，其中初始化 loadHtml一般都會報很多警告，但是並不影響使用，用@遮蔽錯誤。

基於Python獲取docx/doc檔案內容程式碼解析

這篇文章主要介紹了基於Python獲取docx/doc檔案內容程式碼解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

php抓取網頁body內容，並過濾網頁標籤

php只抓取網頁文字內容，並過濾其標籤，說幹就幹，開始！ <?php function curl_request ( $url , $post = \'\' , $cookie = \'\' ,$returnCookie = 0 ) {

PHP使用Http Post請求傳送Json物件資料程式碼解析

因專案的需要，PHP呼叫第三方 Java/.Net 寫好的 Restful Api，其中有些介面，需要在傳送 POST 請求時，傳入物件。

通過java記錄資料持續變化時間程式碼解析

這篇文章主要介紹了通過java記錄資料持續變化時間程式碼解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬取資料並實現視覺化程式碼解析

這次主要是爬了京東上一雙鞋的相關評論：將資料儲存到excel中並可視化展示相應的資訊

PHP copy函式使用案例程式碼解析

copy—拷貝檔案說明 copy(string$source,string$dest[,resource$context] ) :bool 將檔案從source拷貝到dest。

PHP超全域性變數實現原理及程式碼解析

超全域性變數在 PHP 4.1.0 中引入，是在全部作用域中始終可用的內建變數。 PHP 超全域性變數

PHP設計模式之資料對映模式（Data Mapper）程式碼例項大全（13）

目標資料對映器是一種資料訪問層，用於將資料在永續性資料儲存（通常是一個關係資料庫）和記憶體中的資料表示（領域層）之間進行雙向傳輸。該模式的目標是為了將資料的記憶體表示、持久儲存、資料訪問進行分離。該

python爬蟲爬取網頁資料並解析資料

1.網路爬蟲的基本概念網路爬蟲（又稱網路蜘蛛，機器人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

application：bs4+requests對網頁資料進行解析

邏輯過程： 1.通過requests對網頁進行爬取，返回網頁html 2.通過bs4對網頁資料進行解析，返回列表資料

Android簡訊備份及資料插入實現程式碼解析

實現備份簡訊到xml檔案和像簡訊中插入一條資料一、實現簡訊將備份到xml檔案中

Android Retrofit2資料解析程式碼解析

在弄資料解析這塊，浪費了很長的時間，最開始一直覺得傳過來用物件接收的，型別是json，往那個方式去想了。搞了很久。

PHP sdk文件處理常用程式碼示例解析

主要是：ppt檔案轉為pdf檔案，pdf檔案轉圖片(png)。描述一下需求：上傳PPT或者PDF檔案到七牛，最終轉換為圖片。檔案上傳部分的功能已經講過了，這裡說一下轉換處理的部分。

一文教你如何用C程式碼解析一段網路資料包？【含程式碼】

本文的目的是通過隨機擷取的一段網路資料包，然後根據協議型別來解析出這段記憶體。

PHPExcel 表格匯入資料程式碼解析（二）

前面大概講了phpexcel用表格匯入資料到資料庫中的教程，今天會詳細剖析函式程式碼，話不多說，先上程式碼：

springboot跨域CORS處理程式碼解析

這篇文章主要介紹了springboot跨域CORS處理程式碼解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

mysql查詢語句中使用者變數的使用程式碼解析

上一篇文章中我們介紹了MySQL優化總結-查詢總條數。這篇文章我們來介紹下查詢語句中的另一個知識：使用者變數的使用程式碼解析。

基於h5py的使用及資料封裝程式碼

1. h5py簡單介紹 h5py檔案是存放兩類物件的容器，資料集(dataset)和組(group)，dataset類似陣列類的資料集合，和numpy的陣列差不多。group是像資料夾一樣的容器，它好比python中的字典，有鍵(key)和值(value)。group

用python寫測試資料檔案過程解析

這篇文章主要介紹了用python寫測試資料檔案過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下