原生態php通過dom獲取div/table裡面的內容，不用正則！

阿新 • • 發佈：2019-01-06

原生態php獲取網頁標籤裡面的內容，不用外掛！不用正則，直接一把摳出來！

error_reporting(E_ALL);
$out=_getUrl('http://www.gdczepb.gov.cn/detail/23328');

$out=preg_replace(array('/<head>([\s\S]+?)<\/head>/i','/<p>/i'),array('<head><meta http-equiv="Content-Type" content="text/html;charset=utf-8"></head>','<br><p>' 
),$out);

    // echo $out;
    $dom = new DOMDocument();
    @$dom->loadHTML($out);
    $xpath = new DOMXPath($dom);

    $url=$xpath->query("//div[@class='contents']");
    $str=$url->item(0)->nodeValue;
    echo '<pre>'; 
      print_r($str);
      // print_r(htmlspecialchars($str));
    echo 
 '</pre>';

//以下是通過curl傳輸陣列引數獲取html內容！
function _getUrl($url){
   $curl=curl_init();
   $options=array(
        CURLOPT_URL=>$url,
        CURLOPT_RETURNTRANSFER =>1,
        CURLOPT_USERAGENT=>'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36' 
,
        CURLOPT_CONNECTTIMEOUT=>60
        );
   curl_setopt_array($curl,$options);
   $out=curl_exec($curl);
   curl_close($curl);
   return $out;
    }

這裡面遇到個大問題，字符集編碼錯亂，因為原頁面沒有設定字元編碼集，但是loadHtml的時候預設是utf-8編碼，但是讀取的內容裡面一定要在title前面申明字符集，如果不是utf-8需要轉換。這裡不細說，已經有人講得很好了，我直接把連結放上來`http://www.fwolf.com/blog/post/314`

原生態php通過dom獲取div/table裡面的內容，不用正則！

原生態php獲取網頁標籤裡面的內容，不用外掛！不用正則，直接一把摳出來！ error_reporting(E_ALL); $out=_getUrl('http://www.gdczepb.gov.

php 通過curl獲取遠程數據，返回的是一個數組型的字符串，高手幫忙如何將這個數組類型的字符串變成數組。

bsp 選項 con 獲取 pan 如果 clas exe transfer 如 Array([0] => Array([0] => Array([kd_status] => 已簽收[kd_time] => 2014-04-30 18:59:43 [

獲取網頁指定內容,終於不用正則表示式.

剛設計一個獲取網頁內中草藥資料提取的軟體,原想找些正則表示式來達到獲取文字資料,試找了些,都是獲取連結和連結文字的，還有獲取TD間文字的沒試過，不過對照獲取到的網頁內容可見效果不很滿意,於是自己對網頁內容進行分析,經過2天的努力,終於不用正則表示式,獲取到想要的純文字資料,下面是使用語句獲取的一

php通過Xpath獲取CSDN的Dom元素

Xpath的Dom分析真的比自己寫正則去匹配Dom要高效很多，而要使用php的XpathDom，這裡我使用的是Wamp,要開啟php配置的extensions的openSSL,否則在獲取網頁的Dom時會報錯，然後我們所需的某個元素的Xpath可以通過瀏覽器，例如谷歌瀏覽器和火

PHP通過URL獲取文件大小

files fsockopen func get class eof parse file pty function getFileSize($url){ $url = parse_url($url); if($fp = @fsoc

js怎麼通過class獲取div中的attr的值

求助：怎麼根據class類名，獲取樣式中display中的值啊？萬分感謝！！補充解答: $(".window-shadow").css("display");(使用類選擇器) 該例項中涉及到子視窗和父視窗的知識倘若設計了

如何通過js獲取到CSS3裡面transform rotate旋轉角度的度數，matrix解析

如果你曾想通過下面這條語獲取transform的值 $(objName).css('transform'); 很遺憾，獲取到的是如下一個矩陣 matrix(a,b,c,d,e,f) 哈哈，看到這個矩陣

PHP通過curl獲取介面URL的資料

<?php $weather = curl_init(); curl_setopt($weather,CURLOPT_URL,"https://api.pc2801.

PHP 通過ip獲取國家及地址方法集合

一、通過http請求淘寶和新浪的介面進行線上查詢優點：呼叫簡單方便程式碼量少缺點：在無網路的情況下無法查詢。 print_r(get_area('223.67.235.28')); function get_area($ip = ''){ if($ip =

php通過$_SERVER獲取當前頁面完整URL地址

使用PHP編寫程式的時候，我們常常想要獲取當前頁面的URL。下面提供一個用於獲取當前頁面URL的函式以及使用方法：示例一： <?php // 說明：獲取完整URL function curPageURL() { $pageURL = 'http';

PHP通過API獲取手機號碼歸屬地

該API介面自 2011年 SAE平臺上線穩定執行至今，增加了17號段的支援,歡迎各種採集注限制，併發10 詳細使用說明介面地址：http://appyun.sinaapp.com/index.php?app=mobile&controller=index

過載和覆蓋的區別，通過反射獲取泛型實際型別，列舉要點，五個最常用的集合類之間的區別和聯絡，final總結

java面試碰到過的題目之方法過載和覆蓋的區別。 1. 過載方法必須滿足以下條件： i. 方法名相同。 ii. 方法的引數型別、個數、順序至少有一項不同。 iii. 方法的返回型別可以不相同。 iv. 方法的修飾符可以不相同。 2. 重寫方法必須滿足以下條件： i. 子

jquery獲取當前點選項獲取div中的內容------index-------屬性值

1.獲取ID屬性值：event.currentTarget.id2.獲取自定義data-屬性值：event.currentTarget.dataset.name----- （data-name）3.獲取div裡的內容2種方法： html() text()4.

httpmodule通過httpfilter獲取返回的網頁內容

自定義httpmodule裡面：public virtual void Init(HttpApplication app) { // WARNING! This does not work with Windows authenti

java通過反射獲取方法的引數名，Idea/Eclipse/Maven的配置

1，在8以前的jdk版本中，我們利用反射只能獲取到引數型別，然後引數名字都是利用arg0,arg1,arg2......要想獲得引數名，得加上註解，如下：public User getUser(@Param("groupid") String groupid, @Param(

通過SpringAOP獲取request中所有引數，記錄使用者操作日誌

今天搞了一個AOP的管理日誌，蛋疼的很....老規矩貼程式碼吧首先除了aop的包以外需要這三個包。自行度娘。(如果想切入controllers,請將這個程式碼寫入你的mvc配置中，糾結了一上午切不進去就是這個原因.)（method為你切入類的方法名）可以照這個打個模版出來

動態獲取html頁面的內容，而且取當中的某塊元素的方法

var mod .ajax pos spa app sync lte index ??$.ajax({ url: "http://192.168.1.59:8888/app-tpl-webapp/tpl/design.html", async:f

用IHTMLDocument2接口獲取頁面上想要的數據，代替正則表達式

正則表達式導入 innertext close lose doc html con HA 原文:用IHTMLDocument2接口獲取頁面上想要的數據，代替正則表達式原文發布時間為：2010-07-01 —— 來源於本人的百度文章 [由搬家工具導入]1. 用

jmeter手寫腳本，使用正則獲取cookie（禁用cookies管理器）

coo inf 手動全局其他去掉 bugfree 因此頭信息註：這裏以bugfree為例 1.bugfree登錄時會有重定向，這會導致每個URL都會有。因此要手動獲取cookie的時候，需要去掉重定向勾選正則獲取動態PHPsession 獲取到值後，放到信

通過判斷瀏覽器的userAgent，用正則來判斷手機是否是ios（蘋果）和Android（安卓）客戶端

A- A+ 通過判斷瀏覽器的userAgent，用正則來判斷手機是否是 ios （蘋果）和 Android （安卓）客戶端。程式碼如下： <script type="text/java

原生態php通過dom獲取div/table裡面的內容，不用正則！

原生態php獲取網頁標籤裡面的內容，不用外掛！不用正則，直接一把摳出來！

相關推薦