php採集頁面指定標籤裡面的內容

阿新 • • 發佈：2021-08-10

/*
* 引數說明: $tag_id:所要獲取的元素Tag Id $url:所要獲取頁面的Url $tag:所要獲取的標籤 $data
*/
function getWebTag($tag_id, $url = false, $tag = 'div', $data = false) {
    if ($url !== false) {
        $data = file_get_contents ( $url );
    }
    $charset_pos = stripos ( $data, 'charset' );
    if ($charset_pos) {
        if 
 (stripos ( $data, 'utf-8', $charset_pos )) {
            $data = iconv ( 'utf-8', 'utf-8', $data );
        } else if (stripos ( $data, 'gb2312', $charset_pos )) {
            $data = iconv ( 'gb2312', 'utf-8', $data );
        } else if (stripos ( $data, 'gbk', $charset_pos )) {
            $data = iconv 
 ( 'gbk', 'utf-8', $data );
        }
    }
    preg_match_all ( '/<' . $tag . '/i', $data, $pre_matches, PREG_OFFSET_CAPTURE ); // 獲取所有div字首
    preg_match_all ( '/<\/' . $tag . '/i', $data, $suf_matches, PREG_OFFSET_CAPTURE ); // 獲取所有div字尾
    $hit = strpos ( $data, $tag_id );
    if ($hit == - 1)
         
return false; // 未命中
    $divs = array (); // 合併所有div
    foreach ( $pre_matches [0] as $index => $pre_div ) {
        $divs [( int ) $pre_div [1]] = 'p';
        $divs [( int ) $suf_matches [0] [$index] [1]] = 's';
    }
    // 對div進行排序
    $sort = array_keys ( $divs );
    asort ( $sort );
    $count = count ( $pre_matches [0] );
    foreach ( $pre_matches [0] as $index => $pre_div ) {
        // <div $hit <div+1 時div被命中
        if (($pre_matches [0] [$index] [1] < $hit) && ($hit < $pre_matches [0] [$index + 1] [1])) {
            $deeper = 0;
            // 彈出被命中div前的div
            while ( array_shift ( $sort ) != $pre_matches [0] [$index] [1] && ($count --) )
                continue;
                // 對剩餘div進行匹配，若下一個為字首，則向下一層，$deeper加1，
                // 否則後退一層，$deeper減1，$deeper為0則命中匹配，計算div長度
            foreach ( $sort as $key ) {
                if ($divs [$key] == 'p')
                    $deeper ++;
                else if ($deeper == 0) {
                    $length = $key - $pre_matches [0] [$index] [1];
                    break;
                } else {
                    $deeper --;
                }
            }
            $hitDivString = substr ( $data, $pre_matches [0] [$index] [1], $length ) . '</' . $tag . '>';
            break;
        }
    }
    return $hitDivString;
}
 
echo getWebTag ( 'id="content"', 'http://www.cdlyh.com/article/read/id/12345.html', 'div' );

php採集頁面指定標籤裡面的內容

/* * 引數說明: $tag_id:所要獲取的元素Tag Id $url:所要獲取頁面的Url $tag:所要獲取的標籤 $data

python去除html標籤及標籤裡面的內容

使用正則表示式去除htm標籤，只取出標籤裡面的文字內容 >>> import re >>>

nuxt 每個頁面head標籤內容設定方式

導讀在前面幾節課程中，我們已經完成對首頁，jokes查詢頁，About頁面的開發，接下來，我們來看一下每個頁面的head標籤

WordPress 重定向 wp-login.php 登入到指定頁面

如果你的 WordPress 網站有前端登入註冊功能，但不想讓其他人訪問 wp-login.php 登入頁面，並且當訪問 WordPress 預設登入頁面時重定向到指定的頁面，比如前端登入註冊頁面等，可以通過下面的程式碼實現。

python處理p標籤裡面多餘的class 和其它標籤[html內容處理]

1、去掉p標籤自帶的class 2、去掉p標籤裡面的其他標籤 text = \"\"\"<p><img src=\"https://www.yikaow.com/upload/images/2019/6/2711221356.jpg\" alt=\"《風雨哈佛路》原型\" /></p><p cl

Python如何獲取檔案指定行的內容

linecache,可以用它方便地獲取某一檔案某一行的內容。而且它也被 traceback 模組用來獲取相關原始碼資訊來展示。

SpringBoot專案實現評論功能、分類頁面與標籤頁面

1、評論功能 ①、建立Comment實體類，其中包括ID，nickname等元素 @Id @GeneratedValue(strategy = GenerationType.IDENTITY)

Thymeleaf 在頁面中直接顯示內容

Thymeleaf 在頁面中直接顯示內容一般情況下 Thymeleaf 模板要輸出變數需要在某個標籤中（如<div>、<span>）寫th:text等屬性來實現。但有時我們希望想不寫在標籤中，直接輸出變數的值，比如在<tit

java讀取html檔案,並獲取body中所有的標籤及內容的案例

這裡的獲取的是html檔案中body中的所有標籤以及內容 package com.lmt.service.file; import java.io.BufferedReader;

C# 採集頁面資料

using HtmlAgilityPack; using Nito.AsyncEx; using System; using System.Diagnostics; using System.IO; using System.IO.Compression;

獲取輸入框游標位置及指定位置插入內容

<!DOCTYPE html> <html lang=\"en\"> <head> <meta charset=\"UTF-8\"> <title></title>

頁面結構標籤在HTML與CSS中使用規範

練習原始碼： <!DOCTYPE html> <html lang=\"en\"> <head> <meta charset=\"UTF-8\">

02 隨機器Random產生指定範圍裡面隨機數

1.前提 1.1 隨機器的使用方法(以獲取[0,3)範圍內的整數為例) 第一步:Random random=new Random();

java後臺實現js關閉本頁面,父頁面指定跳轉或重新整理操作

關閉本頁面，跳轉到百度 response.setCharacterEncoding(\"gbk\"); PrintWriter out=response.getWriter();

頁面A標籤連線下載：文字（格式： .txt ) PDF（格式： .pdf ）

//JS： //拼接字串，通過點選“下載”呼叫JS函式，下載 .txt、.pdf、以及其他檔案（ .xls、.xlsx、.doc、.docx等）

詳解BeautifulSoup獲取特定標籤下內容的方法

以下是個人在學習beautifulSoup過程中的一些總結，目前我在使用爬蟲資料時使用的方法的是：先用find_all()找出需要內容所在的標籤，如果所需內容一個find_all()不能滿足，那就用兩個或者多個。接下來遍歷find_all的結

js回到頁面指定位置的三種方式

以前大部分時間都是在做b端相關的專案，在實現此類需求時，通常都是直接藉助 a 標籤搞定，現在做c端了，對互動性的要求一下就提升了，此時 a 標籤就遠遠不能滿足要求了，需要藉助js來實現此類需求，特此記錄。

PHP實現頁面跳轉的三種方式

技術標籤：PHPJSphpjavascriptwebhtml PHP實現頁面跳轉有三種方式,我們一一介紹,推薦使用第一、三方式。

在 < input > 標籤裡面比較常用的type屬性以及用法

關於<input>標籤 <input>標籤在HTML程式碼裡面本身是空的，也就是說單獨呼叫<input>標籤是沒有任何作用的，而<input>標籤常用的屬性就是type，而type這個屬性也擁有著很多屬性，這篇文章主

利用POI合併Excel制定列上下行之間指定單元格內容的Util編寫

技術標籤：excelpoi 在利用POI的API對Excel匯出進行合併制定的列上下之間相同內容的單元格工具類處理 1 具體業務需求，在專案中，對於匯出層級關係的Excel表單資料，進行操作合併，自己對資料內容進行填寫操作後

php採集頁面指定標籤裡面的內容

相關推薦