正則與xpath爬蟲模板

阿新 • • 發佈：2021-06-25

題記

研究python上癮啊，今天搞個正則與xpath爬取資料的模板。

正文

直接上程式碼，很簡單，自己看吧，xpath有些小坑，有的東西他爬不到。

#coding=utf-8
import requests
from lxml import etree
import urllib3
import re
#re正則匹配模型
def Retest(url):
    try:
        url="http://"+url+"/hosts"
        #請求網址
        print(url)
        r = requests.get(url,verify = False,timeout=5)
         
#print(str(r.content))
        #content = etree.HTML(r.content)
        #正則返回內容
        name = re.findall(r"UserName=\w+", str(r.content))
        passw = re.findall(r"Password=\w+", str(r.content))
        #取返回值
        name = name[0]
        passw = passw[0]
        print(name)
        print(passw)
         
#這裡可以加寫入檔案的語句
    except:
        pass
#xpath匹配模型
def Xpathtest(url):
    #請求url
    try:
        r = requests.get(url,verify = False,timeout=5)
        #print(r)
        #print(type(r))
        #url返回內容進行編碼
        r.encoding = 'utf-8'
        #content=r.content.decode('utf-8')
        #print(str(r.content.decode('utf-8'))) 

        #content = etree.HTML(r.content.decode('utf-8'))
        #print(r.text)
        #html = r.data.decode('utf-8', 'ignore')
        #轉換成可以進行xpath讀取的格式存起來。
        _element = etree.HTML(r.text)
        #print(type(_element))
        text = _element.xpath("//div[@class='post-meta wrapper-lg']/h2[@class='m-t-none text-ellipsis index-post-title text-title']/a/text()")
        print(text)
        #ipdata = '\n'.join(text)
        #如果獲取的是陣列可以通過遍歷進行輸出
        #for i in text:
        #    print(i)
        # 這裡可以加寫入檔案的語句
    except:
        pass
if __name__ == '__main__':
    file = open('edu.txt', 'r')
    number = file.readlines()
    for i in number:
        i = i.rstrip()
        url = str(i)
        Retest(url)    #賬號密碼獲取
    #url=""
    #Xpathtest(url)

正則與xpath爬蟲模板

題記研究python上癮啊，今天搞個正則與xpath爬取資料的模板。正文直接上程式碼，很簡單，自己看吧，xpath有些小坑，有的東西他爬不到。

Python使用正則表示式實現爬蟲資料抽取

1. 為什麼要使用正則表示式? 首先，大家來看一個例子。一個文字檔案裡面儲存了一些市場職位資訊，格式如下所示：

資料解析之正則與BS4

1.資料解析 1.資料解析就是應用一定的技術手段在響應資料中獲取目標資料 2.常用資料解析方式:

02-正則和xpath

一、正則基本回顧 1.常用指令 import re #提取出python # key=\"javapythonc++php\" # re.findall(\'python\',key)[0]

【python實訓】HTML解析---正則、bs庫與xpath

技術標籤：python正則表示式xpath HTML解析—正則、BeautifulSoup庫與XPath方法我們可以使用requests模擬請求，拿到網頁的原始碼html格式的字串，但需要進行解析，找到指定內容，可以使用python中有自帶的find方

爬蟲與Python：（三）基本庫的使用——4.re正則使用

正則表示式是一個特殊的字元序列，它能幫助使用者便捷地檢索一個字串是否與某種模式匹配。在爬蟲中我們經常會使用它來抓取到網頁原始碼或介面返回內容中匹配提取我們想要的資料。

【Python】【爬蟲】【爬狼】004_正則規則模板及其應用

正則規則模板及其應用。通過使用正則表示式，取出我們想要的內容正則規則模板與應用（一）

爬蟲資料分析（bs4,xpath,正則表示式)

1、bs4的BeautifulSoup函式的使用：將獲取的網頁格式的文字解析，之後獲取想要的資料

爬蟲從入門到入獄(4)——requests與正則表示式

宣告：為什麼沒有3?問就是稽核過不去，改了好幾遍都過不去。但是問題不大，3是一個階段案例，不影響之後的學習。

寫爬蟲，不會正則怎麼行？

導讀：正則在各語言中的使用是有差異的，本文以 Python 3 為基礎。本文主要講述的是正則的語法，對於 re 模組不做過多描述，只會對一些特殊地方做提示。

php 正則去掉  空格  與

1、php 正則去掉 空格 $str=\'

正則表示式[\s\S]與[\w\W] 什麼意思

問：例如：[a-z]表示從a到z之間的任意一個。不是這樣的嗎？誰能給我解釋一下[ ]的所有用法？感謝

基於JS正則表示式實現模板資料動態渲染(實現思路詳解)

最近業務上需要動態渲染模板資料，好久沒寫前端程式碼了，有點生疏，將思路簡單寫下來，防老：

linux grep與正則表示式使用介紹

grep （縮寫來自Globally search a Regular Expression and Print）是一種強大的文字搜尋工具，它能使用特定模式匹配（包括正則表示式）搜尋文字，並預設輸出匹配行。Unix的grep家族包括grep、egrep和fgrep。Windows

PHP正則之正向預查與反向預查講解與例項

瞭解正向預查&反向預查前，我們先要知道正則的2個函式：preg_match_all 、 preg_replace

SQL Anywhere正則表示式語法與示例

正則表示式語法通過 SIMILAR TO 和 REGEXP 搜尋條件以及 REGEXP_SUBSTR 函式支援正則表示式。對於 SIMILAR TO，正則表示式語法符合 ANSI/ISO SQL 標準。對於 REGEXP 和 REGEXP_SUBSTR，正則表示式的語法和支援符合

淺談js正則字面量//與new RegExp的執行效率

前幾天談了正則匹配 js 字串的問題：《js 正則學習小記之匹配字串》和《js 正則學習小記之匹配字串優化篇》。

正則表示式替換table表格中的樣式與空標記(保留rowspan與colspan)

完整測試程式碼 <script> var str=\'\'; str=\'<table id=\"tblSort\" cellspacing=\"0\" helvetica=\"\" sans=\"\"><tr id=\"sdf\"><td style=\"color:red\" class=\"ok\" colspan

JS正則表示式常見函式與用法小結

本文例項講述了JS正則表示式常見函式與用法。分享給大家供大家參考，具體如下：

php正則表示式的匹配與替換

只介紹兩個與Perl相容的正則表示式函式： 1.preg_match_all 函式執行正則表示式匹配與搜尋；

正則與xpath爬蟲模板

題記

正文

相關推薦