正則表示式採集網頁內容函式

阿新 • • 發佈：2020-12-18

<?php
$content='<a href="http://www.baiduc.om">百度</a>';
$rule = '<a href="||u">|title|</a>';
$arr = preg_message($content, $rule);
print_r($arr);

/**
 按正則表示式提取需要的內容
 規定：
 |[關鍵字]|[屬性]       提取文字，其中關鍵字和屬性是可限項，屬性符佔一個字元
 *                    匹配任意文字
 關鍵字命名規範 ：單詞、數字和下劃線任意組合
屬性：
 u:提取的字串是URL
 p:提取的字串是URL
 +:提取的字串可合併到關鍵字相同的內容中
返回：
  提取到的內容
 訪問：
    如果||裡面有關鍵字，則按返回陣列的鍵名為關鍵字;如果沒有關鍵字，則按所在位置訪問。
   只提取一項內容時，直接返回提取的內容
 */
function preg_message($content,$rule,$all=false){
    $result=false;
    if(!preg_match_all('#\|(?<key>[\w]*?)\|(?<mode>[up\+]?)#i', $rule,$ruleArr)) return false;
    $getArr = $ruleArr[0];
    $keyArr = $ruleArr['key'];
    $modeArr = $ruleArr['mode'];
    foreach($keyArr as $k=>$key){
        $search[]=preg_quote($getArr[$k]);
        $repalce[] = preg_replace(array('#^\|\|$#','#^\|([\w]+)#','#^\|#','#\|$#','#\|u$#i','#\|p$#i'),array('([\s\S]+?)',"(?<$key>",'(','[\s\S]+?)','[^>\'\"]+?)','[^>\'\"]+?)'),$getArr[$k]);
    }
     $rule=preg_quote($rule);
    $rule=str_replace('\*','[\s\S]*?',$rule);
    $rule=str_replace($search,$repalce,$rule);
    $rule="#$rule#i";

    if($all) preg_match_all($rule,$content,$arr);
    else preg_match($rule,$content,$arr);
    if(empty($arr) || !is_array($arr)) return false;
    if(count($getArr)==1) return $arr[1];
    foreach($keyArr as $k=>$key){
        if(empty($key)) $result[$k+1] = $arr[$k+1];
        else $result[$key]=$arr[$key];
    }
    return $result;
}
?>

正則表示式採集網頁內容函式

<?php $content=\'<a href=\"http://www.baiduc.om\">百度</a>\'; $rule = \'<a href=\"||u\">|title|</a>\';

Python爬蟲教程之利用正則表示式匹配網頁內容

前言 Python爬蟲，除了使用大家廣為使用的scrapy架構外，還有很多包能夠實現一些簡單的爬蟲，如BeautifulSoup、Urllib、requests，在使用這些包時，有的網路因為比較複雜，比較難以找到自己想要的程式碼，在這個時候

python正則表示式處理文字內容_Rust 文字處理之正則表示式 Rust 實踐指南

技術標籤：python正則表示式處理文字內容正則表示式多重標籤匹配正則表示式，又稱規則表示式。(英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE)，電腦科學的一個概念。正則表示式通常被用

Java正則表示式解析網頁原始碼

<!DOCTYPE html> <html lang=\"zh-Hans\"> <head> <meta charset=\"utf-8\"> <meta name=\"viewport\" content=\"width=device-width, initial-scale=1.0\">

Python程式設計快速上手——strip()函式的正則表示式實現方法分析

本文例項講述了Python strip()函式的正則表示式實現方法。分享給大家供大家參考，具體如下：

一文秒懂python正則表示式常用函式

導讀：正則表示式是處理字串型別的\"核武器\"，不僅速度快，而且功能強大。本文不過多展開正則表示式相關語法，僅簡要介紹 python中正則表示式常用函式及其使用方法，以作快速查詢瀏覽。

Python常用的正則表示式處理函式詳解

正則表示式是一個特殊的字元序列，用於簡潔表達一組字串特徵，檢查一個字串是否與某種模式匹配，使用起來十分方便。

JS正則表示式常見函式與用法小結

本文例項講述了JS正則表示式常見函式與用法。分享給大家供大家參考，具體如下：

PHP正則表示式函式preg_replace用法例項分析

本文例項講述了PHP正則表示式函式preg_replace用法。分享給大家供大家參考，具體如下：

17.mysql 之SQL執行順序&正則表示式&函式使用

6.1 SQL執行順序編寫順序 SELECT DISTINCT <select list> FROM <left_table> <join_type>

九齒耙(Ninerake)資料採集大資料深度學習智慧分析Python爬蟲軟體的正則表示式規則簡介

正則表示式易於使用，功能強大，可用於複雜的搜尋和替換以及基於模板的文字檢查。這對於輸入形式的使用者輸入驗證特別有用-驗證電子郵件地址等。您還可以從網頁或文件中提取電話號碼，郵政編碼等，在日誌檔案中搜索複

python利用正則表示式提取文字中特定內容

正則表示式是一個特殊的字元序列，它能幫助你方便的檢查一個字串是否與某種模式匹配。

Java正則表示式如何匹配特定html標籤內的內容

如題：使用正則表示式，怎麼匹配特定html標籤內的內容。比如，對於如下文字串：

PHP正則表示式核心技術完全詳解第5節 php正則替換函式

作者：極客小俊一個專注於web技術的80後我不用拼過聰明人，我只需要拼過那些懶人我就一定會超越大部分人!

PHP正則表示式核心技術完全詳解第8節正則過濾函式

作者：極客小俊一個專注於web技術的80後我不用拼過聰明人，我只需要拼過那些懶人我就一定會超越大部分人!

Python正則表示式的findall函式與分組

在學習Python過程，對於分組與findall不太理解，所以歸納總結了一下，以下為本人python學習總結的一部分：

shell函式及其正則表示式

技術標籤：shell 1、shell函式 linux shell 可以使用者定義函式，然後在shell指令碼中可以隨便呼叫.

正則表示式--正則表示式函式--筆記

技術標籤：爬蟲正則表示式正則表示式python爬蟲視訊地址在這裡筆記直接使用pycharm製作，需要原始檔請私聊。

去掉字串的括號_R語言正則表示式：提取括號中的內容

技術標籤：去掉字串的括號作者：黃天元，復旦大學博士在讀，熱愛資料科學與開源工具（R），致力於利用資料科學迅速積累行業經驗優勢和科學知識發現，涉獵內容包括但不限於資訊計量、機器學習、資料視覺化、應用

PHP正則表示式及常用函式

技術標籤：個人學習正則表示式php PHP正則表示式及常用函式正則表示式是對字串進行操作的一種邏輯公式，就是用一些特定的字元組合成一個規則字串，稱之為正則匹配模式。 1.舉個簡單例子：