1. 程式人生 > 程式設計 >php使用自帶dom擴充套件進行元素匹配的原理解析

php使用自帶dom擴充套件進行元素匹配的原理解析

DOMDocument

php提供了非常好用的解析html和xml文件的擴充套件庫DOM,使用這個庫可以非常高效的進行html和xml文件的解析,它的原理就是通過尋找首尾匹配對來進行文件的解析。

從上面的分析可以看出,如果首位不匹配,可能就會導致一些錯誤的出現,因此,這個時候我們需要設定

libxml_use_internal_errors(true);

來進行錯誤的遮蔽,讓它可以解析整個文件。

解析html基本用法

$dom = new \DOMDocument;
$content = htmlspecialchars_decode($content);
libxml_use_internal_errors(true);
$content = mb_convert_encoding($content,'HTML-ENTITIES','UTF-8');
$dom->loadHTML($content);

$content是要解析的html字串,其中我們對它進行了轉義,因為可能含有實體集,然後我們有進行了編碼的轉換,因為可能文件不是utf-8格式的,會導致日文,法文等文字亂碼。

獲取元素

$a = $dom->getElementsByTagName('a');
$p = $dom->getElementsByTagName('p');

遍歷元素

$elements = $dom->getElementsByTagName('a');
foreach ($elements as $element) {
  $element->textContent = '替換成其它的文字';
}

通過上面的迴圈,可以將全部a標籤的文字替換掉。

元素巢狀

有些時候,html會巢狀很多層,比如

<div>
<p>
<a href="xxx" rel="external nofollow" >我是文字</a>
</p>
<p>
內容替換
</p>
</div>

如果我們想要對p標籤文字進行替換的化,並且不想要替換含有子元素的內容,就是這裡的a標籤不想替換,下面的語句不能夠解決我們的問題:

$elements = $dom->getElementsByTagName('p');
foreach ($elements as $element) {
  if($element->hasChildNodes()){
    $element->textContent = 'p標籤內容替換';
  }
}

上面的代會將a標籤的內容也替換掉,這不是我們想要的結果,因為hasChildNodes()這個函式表示的含有內容,無論它是標籤還是文字,它都是返回true的,除非它是空標籤,例如

它才會返回false.

所以我們需要自己封裝一個函式進行檢查是否含有巢狀標籤。

function hasChild($element,$tags)
{
  foreach($tags as $v){
  $elements = $element->getElementsByTagName($v);

  if($elements->length){
  return true;
  }

  }
  return false;
}
$tags = array('title','h1','h2','h3','h4','h5','a','p','dd','img');  

$elements = $dom->getElementsByTagName('p');
foreach ($elements as $element) {
  if(hasChild($element,$tags)){
    $element->textContent = 'p標籤內容替換';
  }
}

通過我們自己封裝的函式,就可以判斷出$dom的node節點是否含有子標籤。

總結

到此這篇關於php使用自帶dom擴充套件進行元素匹配的文章就介紹到這了,更多相關php元素匹配內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!