XMLReader強大的XML解析器

阿新 • • 發佈：2019-02-19

PHP中有兩種主要的XML解析器

1）基於樹的解析器。它是把整個文件儲存為樹的資料結構中，即需要把整個文件都載入到記憶體中才能工作。所以，當處理大型XML文件時候，效能劇減。SimpleXML和DOM擴充套件屬於此型別解析器。

2）基於流的解析器。它不會一次把整個文件載入到記憶體中，而是每次分別讀取其中的一個節點並允許實時與之互動（當移向下一個節點時，上一個節點是被丟棄，但也設定為保留）。很明顯，其效率要高且佔記憶體少，不便之處程式碼量大點。

所以，PHP中處理大型XML文件可以用XMLReader擴充套件方案（基於流的解析器）。它在PHP 5.1中預設是啟用的。

下面是我結合手冊與程式碼整理出來的筆記，希望多交流交流。

部落格地址：http://blogforit.sinaapp.com/View/index/b_id/304.html

<?php 
class xmlRead
{
    // ==================================================================
    //
    // 前三個屬性用來儲存RSS頻道資訊，$items陣列儲存來自指定頻道的所有RSS專案，$xml
    // 儲存頻道的原始XML源
    //
    // ------------------------------------------------------------------
    public $channelTitle = '';
    public $channelDesc = '';
    public $test = '';
    public $items = array();
    public $xml;
 
    public function __construct($url = NULL)
    {
        if($url !== NULL)
        {
            $this->load($url);
        }
    }
 
    public function load($url)
    {
        // $this->xml = file_get_contents($url);
        $this->xml = $url;
        //我們使用XMLReader來解析XML資料
        $xr = new XMLReader();
        $xr->XML($this->xml);
        while ($xr->read()) 
        {   
            // ==================================================================
            //
            // XMLReader::ELEMENT常量通過PHP手冊知道這個代表節點的開始(值是1)，所以當
            // $xr->nodeType也是1(即節點的開始)，我們就可以通過localName屬性得到節點的名字：
            // 如<channel>是一個開始節點，nodeType = 1，並且localName = channel.這裡我們
            // 列印所有節點屬性如下(如果要看所有節點，一定要註釋掉switch，不然它會執行相應函式，就
            // 不能輸出已經在函式裡執行過的屬性了)。
            //
            // ------------------------------------------------------------------
            // echo '<pre>';
            // var_dump($xr->nodeType.' '.$xr->localName.' '.$xr->depth.' '.$xr->value);
            // echo '</pre>';
            if(XMLReader::ELEMENT == $xr->nodeType)
            {   
                // 這裡我們得到$xr->nodeType=1，即所有的開始標籤如<channel>.
                // echo '<pre>';
                // var_dump($xr->nodeType.' '.$xr->localName.' '.$xr->depth.' '.$xr->value);
                // echo '</pre>';
                // ==================================================================
                //
                // 這裡需要特別注意一下，為什麼你把switch註釋與不註釋，var_dump出來的值不同呢，原因
                // 就是因為XMLReader是類似遊標一行一行讀取的，讀取完了之後會銷燬已經讀過的，所以當你
                // 開啟了switch執行程式碼後，由於執行到了channel時，會跳轉到函式_getChannelInfo($xr)
                // 繼續執行函式裡面的程式碼，我們在函式裡面就把RSS的title，description讀過了，所以
                // 打印出來就不存在那些屬性了，如果把switch註釋掉，由於沒有任何執行，則會一行一行輸出
                // 所有的開始標籤如<title>,<descrition>.。
                //
                // ------------------------------------------------------------------               
                switch ($xr->localName) 
                {
                    //如果是channel，我們就得到它的下級屬性值，如title，description等
                    case 'channel':
                        $this->_getChannelInfo($xr);
                        break;
                    //如果是item(即RSS文摘的開始屬性)，我們就得到所有的文章內容並存入到陣列中
                    case 'item':
                        $this->_getItemInfo($xr);
                        break;
                }
            }
        }
    }
 
    /**
     * 獲取channel型別的資料,比如標題，描述等
     */
    protected function _getChannelInfo($xr)
    {
        // ==================================================================
        //
        // depth代表節點樹的深度，最開始是0即<rss version="2.0">,當出現了第一個存在深度
        // 為3的節點時，while迴圈就結束了。這裡指明一下，由於在<xiaozhe>下面的文字值是屬於
        // 3節點，由於下面迴圈到了xiaozhe時，我讀取了那個值節點(深度是3)，所以while迴圈才能
        // 繼續執行。當執行到pubDate時，由於沒有得到它的值節點（在函式內部沒有將那個節點讀取，
        // while迴圈就會讀取到那個節點），即讀取的節點深度就是3（pubDate的值節點）。
        // 所以迴圈結束，並且此節點已經被讀取下次就不會輸出出來了。永遠記住，read()一次，遊標
        // 向下走一個節點。     
        //
        // ------------------------------------------------------------------
        while ( ($xr->read()) && ($xr->depth == 2) ) 
        {
            // echo '<pre>';
            // print_r($xr->nodeType.' '.$xr->localName.' '.$xr->depth);
            // echo '</pre>';
            if(XMLReader::ELEMENT == $xr->nodeType)
            {
                switch ($xr->localName)
                {
                    case 'title':
                        //這裡使用read繼續讀取下個遊標，即屬性值
                        $xr->read();
                        $this->channelTitle = $xr->value;
                        break;
                    case 'description':
                        $xr->read();
                        $this->channelDesc = $xr->value;
                        break;
                    case 'xiaozhe':
                        $xr->read();
                        $this->test = $xr->value;
                        break;
                }
            }   
        }
    }
 
    /**
     * 獲取Item資料，一個Item在一個RSS裡面相當於一篇文章  
     */
    protected function _getItemInfo($xr)
    {
        $title = '';
        $link = '';
        $desc = '';
        while( ($xr->read()) && ($xr->depth > 2) )
        {
            if(XMLReader::ELEMENT == $xr->nodeType)
            {
                switch ($xr->localName)
                {
                    case 'title':
                        $xr->read();
                        $title = $xr->value;
                        break;
                    case 'description':
                        $xr->read();
                        $desc = $xr->value;
                        break;
                    case 'link':
                        $xr->read();
                        $link = $xr->value;
                        break;
                }
                 
            }
        }
 
        //將資料放入陣列中，因為一個RSS可能會有很多的item
        //當呼叫一次這個函式，就增加一次資料
        $this->items[] = array(
            'title' => $title,
            'link'  =>   $link,
            'desc'  =>   $desc,
            );
    }
 
}
 
// $url = 'http://blog.sina.com.cn/rss/2022595450.xml';
//$url = 'http://www.huxiu.com/rss/0.xml';
$url = "<rss>
    <channel>
      <title>feed title</title>
      <description>feed description</description>
      <xiaozhe>123</xiaozhe>
      <pubDate>Mon, 29 Oct 2012 13:30:00 +0100</pubDate>
      <copyright>123</copyright>
      <item>
        <title>item title</title>
        <description>item description</description>
        <link>http://itemlink</link>
      </item>
      <item>
        <title>item title</title>
        <description>item description</description>
        <link>http://bla</link>
      </item>
   </channel>
  </rss>";
$obj = new xmlRead($url);
// echo '<pre>';
// print_r($obj->items);
// echo '</pre>';
?>

XMLReader強大的XML解析器

PHP中有兩種主要的XML解析器 1）基於樹的解析器。它是把整個文件儲存為樹的資料結構中，即需要把整個文件都載入到記憶體中才能工作。所以，當處理大型XML文件時候，效能劇減。SimpleXML和DOM擴充套件屬於此型別解析器。 2）基於流的解析器。它不會一次把整個文件

使用XWAF框架（5）——XML解析器：CXDP

XWAF推出了自己的組合式XML文件解析器，英文名叫：“CXDP”，是“Combined XML Document Parser”的縮寫。核心程式碼屬XWAF原創，註釋、日誌和幫助文件採用全中文描述，特別適合於中文背景的初級程式設計師學

寫了一個mircro XML解析器，附原始碼

不喜歡看人廢話喜歡直奔主題的是同學可以直接： goto 附件下載。　　mirco 的意思是比 tiny 還要 tiny。　　GUI 模板用 XML 做是最合適的。方便嵌入指令碼，方便編輯修改，方便嵌入面板描述，用 XML 做模板，寫起 GUI 編輯器也要方便得多。　　以前幾個的 GUI 模板解

JDK中JAXP尋找XML解析器的順序

工作中，使用JAVA的JAXP讀取解析XML檔案中，就碰到了一件奇件的事。在Web工程中，除錯發現JAXP實際使用的是Xerces解析器，可是，當將工程中的一個小Swing工具，與Web使用一樣的jar包，打成一個可執行的jar包時，除錯卻發現JAXP實際使用的是Crimso

TinyXML：一個優秀的C++ XML解析器

讀取和設定xml配置檔案是最常用的操作，試用了幾個C++的XML解析器，個人感覺TinyXML是使用起來最舒服的，因為它的API介面和Java的十分類似，面向物件性很好。 TinyXML是一個開源的解析XML的解析庫，能夠用於C++，能夠在Windows或Linux中編譯。這個解析庫的模型通過解析XML檔案，

XML解析器（一）Jsoup

目錄 Jsoup Jsoup jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS

第三章 XML解析器，驗證器，轉換器，編輯器等

xml有這麼多的規則，寫出來的xml文字檔案到底符不符合要求呢? 用人工檢驗的方式效率太低，也容易出錯，所以開發出了程式來驗證。 xml驗證器： XML DTD和XML Schema，後者用來替代前者。如果 XML 文件存在錯誤，那麼程式就不應當繼

筆記：XML-解析文檔-流機制解析器（SAX、StAX）

輸入 tex 字符數表示 getname 重要樹形 puts ron DOM 解析器完整的讀入XML文檔，然後將其轉換成一個樹型的數據結構，對於大多數應用，DOM 都運行很好，但是，如果文檔很大，並且處理算法又非常簡單，可以在運行時解析節點，而不必看到完整的樹形

使用DOM解析器解析XML文件學習筆記

使用DOM解析器解析XML文件學習筆記dom解析和dom4j原理一致 Node是所有元素的父接口常用的API： DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();取得DOM解析器工廠 DocumentBuilder

dom4j解析器sax解析xml文件

pri clip nco 收藏 sel 新建添加 ack 想要 1.使用dom4j解析器解析xml ***解析器dom4j是由dom4j組織提供的，針對xml進行解析。dom4j不是Javase的一部分，使用時需要導入dom4j的jar包（官網下載）　　在eclips

Spring MVC Xml視圖解析器

視圖解析器分享 property tex 創建 eclipse servlet load body XmlViewResolver用於在xml文件中定義的視圖bean來解析視圖名稱。以下示例演示如何在Spring Web MVC框架使用XmlViewResolver。 X

DocumentBuilderFactory解析XML,用於建立DOM模式的解析器物件

(1) javax.xml.parsers 包中的DocumentBuilderFactory， DocumentBuilderFactory是一個抽象工廠類，它不能直接例項化，但該類提供了一個newInstance方法，這個方法會根據本地平臺預設安裝的解析器，自動建立一個工廠的物件並返回。 (2) 呼叫

使用jaxp解析器dom方式對xml節點進行操作

作為一名初學者，對一些程式語言感覺不是很簡單。尤其是正在學習的Javaweb這一部分的內容，非常駁雜，讓人頭大。看過一些書，也包括聽一些人說，寫部落格有利於理解和記憶。作為一名初學者，我抱著學習和積累的心理，開始我的部

XML文件和SAXParser解析器

比較簡單的就不記錄了。記一些容易忘的。 XML部分 1、特殊字元如何表示為純文字這些字元在xml中屬於特殊字元，它代表的不是本身字元的意思。因此特殊字元表示成純文字，就要通過特殊的辦法來表示方法一：實體引用方法二：CDATA標記 <![CDATA[文

web專案---fastjson更加強大的json解析器

首先,在之前的部落格我們談到了google開發的GSON,用來做java Bean物件與JSON之間的轉換,來完成前後端資料互動的統一,然後在之後又瞭解到有一個國產的比GSON效率更高的阿里巴巴開發的fastjson,具體效能對比可參考該作者寫的三種技術對比的部落格: Gson、FastJson

使用dom4j解析器解析xml檔案

解析xml檔案目前用得最多的就是Dom4j解析器，被很多企業認可，在這之前還有w3c釋出的dom解析器，但後來逐漸被棄用了，Dmo4j解析器使用起來更簡單，邏輯更清晰，備受開發者喜愛。 Dom4j解析器開始解析前都將檔案載入到記憶體中，所以就出現了“讀快寫慢”的現象，但並沒

【XML】XML的解析方式（dom+sax）以及解析器（dom4j+jaxp+jdom）

1.xml的解析方式（技術）：dom 和 sax >>dom方式解析：根據xml的層級結構在記憶體中分配一個樹形結構，把xml的標籤、屬性和文字都封裝成物件 **優點：實現增刪改操作很方便 **缺點：如果檔案過大會造成記憶體溢位 **解析過程： >&

XML文件解析器---demo4j

首先我們來介紹一下什麼叫XML文件 XML中文翻譯為擴充套件標記語言，標準通用標記語言的子集，是一種用於標記電子檔案使其具有結構性的標記語言。在電子計算機中，標記指計算機所能理解的資訊符號，通過此種標記，計算機之間可以處理包含各種的資訊比如文章等。它可以用

jaxp解析器用dom方式操作xml文件的總結

1. xml解析技術概述　　　解析xml文件一般有兩種技術：dom（Document Object Model）和sax（Simple API for XML）。dom即文件物件模型，是W3C組織推薦的處理xml的一種方式；sax不是官方標準，但它是xm

xml解析之XmlPullParser解析器

程式碼目錄結構 HobInfo實體類程式碼 package cn.itcast.person; import android.R.integer; public class HobInfo { private int id; private String cit

XMLReader強大的XML解析器

相關推薦