爬蟲資料分析（bs4,xpath,正則表示式)

阿新 • • 發佈：2022-03-28

1、bs4的BeautifulSoup函式的使用：將獲取的網頁格式的文字解析，之後獲取想要的資料

from bs4 import BeautifulSoup
import requests

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36'}
url = "http://sanguo.5000yan.com/"
page_text = requests.get(url ,headers = headers).content
## 傳入解析器：lxml 比如解析成中文 排版
soup = BeautifulSoup(page_text,'lxml')
#從解析之後的內容取值想要的內容： 有幾種方式方法 --可搜尋 <soup.select()函式的使用用法> 檢視
li_list = soup.select('main > div > ul > li')
fp = open('./sanguo.txt','w',encoding='utf-8') #開啟一個檔案 如果沒有的話就建立一個
for li in li_list:
    #下面這段的意思 <li class="menu-item"><a href="https://sanguo.5000yan.com/1083.html">第一百一十九回 假投降巧計成虛話 再受禪依樣畫</a></li>  ------->>>>> <a href="https://sanguo.5000yan.com/965.html">第一回 宴桃園豪傑三結義 斬黃巾英雄首立功</a> ----->>>>> 第一回 宴桃園豪傑三結義 斬黃巾英雄首立功
    title = li.a.string # 取a 裡面的標題
    #取a中的網址 進行深入二度爬蟲
    detail_url = li.a['href']
    detail_page_text = requests.get(detail_url,headers = headers).content
    detail_soup = BeautifulSoup(detail_page_text,'lxml') #傳入解析器 解析排版
    div_tag = detail_soup.find('div',class_="grap") #抓取想要的內容
    content = div_tag.text
    fp.write(title+":"+content+'\n') #寫入檔案裡面
    print(title,'爬取成功！！！')

2、xpath的使用

爬蟲資料分析（bs4,xpath,正則表示式)

1、bs4的BeautifulSoup函式的使用：將獲取的網頁格式的文字解析，之後獲取想要的資料

回溯法（三）——正則表示式匹配問題

遇到特殊字元的時候，我們就有多種處理方式了，也就是所謂的岔路口： “*”有多種匹配方案，可以匹配任意個文字串中的字元，我們就先隨意的選擇一種匹配方案，然後繼續考察剩下的字元。如果中途發現無法繼續匹配下

js學習（十）-- 正則表示式

目錄1.正則表示式的方法2.正則表示式的語法3.字串和正則相關的方法split（）search()match()replace()4. 正則表示式的語法量詞^和$檢測是否為一個手機號轉義字元\\去除結尾和開頭的空格5.郵件的正則表示式

JavaSE基礎——（14）正則表示式與常用工具類

技術標籤：JAVA正則表示式MathSystemDateCalendar 目錄一、正則表示式 1.1正則表示式的概述

Shell正則表示式（2）- 正則表示式

正則表示式與萬用字元正則表示式用來在檔案中匹配符合條件的字串，正則是包含匹配。grep，awk，sed等命令可以支援正則表示式。

MySQL資料庫之——高階SQL語句（三）正則表示式和儲存過程

一、正則表示式（REGEXP） 1、正則表示式匹配符字元解釋舉例 ^ 匹配文字的開始字元

# shell指令碼（2）正則表示式

一、基礎正則表示式 # 元字元 ^行首定位符 [root@init-02 ~]# grep \"root\" /etc/passwd root:x:0:0:root:/root:/bin/bash

爬蟲從入門到入獄(1)——正則表示式

文章內容均出自《python爬蟲開發》文章目錄1.1正則表示式1.2正則表示式的基本符號1.2.1 點號 “ . ”1.2.2 星號 “ * ”1.2.3 點號+星號 “ .* ”1.2.4 問號“ ? ”1.2.5 點號+星號+問號“ .*？” （最常用）1.2.6 小

九齒耙(Ninerake)資料採集大資料深度學習智慧分析Python爬蟲軟體的正則表示式規則簡介

正則表示式易於使用，功能強大，可用於複雜的搜尋和替換以及基於模板的文字檢查。這對於輸入形式的使用者輸入驗證特別有用-驗證電子郵件地址等。您還可以從網頁或文件中提取電話號碼，郵政編碼等，在日誌檔案中搜索複

Python使用正則表示式實現爬蟲資料抽取

1. 為什麼要使用正則表示式? 首先，大家來看一個例子。一個文字檔案裡面儲存了一些市場職位資訊，格式如下所示：

使用正則表示式生成隨機資料的方法

從正則表示式生成隨機資料專案地址 https://github.com/GitHub-Laziji/reverse-regexp 安裝

基於python實現微信好友資料分析（簡單）

一、功能介紹本文主要介紹利用網頁端微信獲取資料,實現個人微信好友資料的獲取,並進行一些簡單的資料分析，功能包括：

Python程式設計快速上手——正則表示式查詢功能案例分析

本文例項講述了Python正則表示式查詢功能。分享給大家供大家參考，具體如下：

Python程式設計快速上手——strip()函式的正則表示式實現方法分析

本文例項講述了Python strip()函式的正則表示式實現方法。分享給大家供大家參考，具體如下：

基於JS正則表示式實現模板資料動態渲染(實現思路詳解)

最近業務上需要動態渲染模板資料，好久沒寫前端程式碼了，有點生疏，將思路簡單寫下來，防老：

Visual Studio 2019 清理空行問題（非正則表示式）

開篇點題：正則表示式方法效果=0 （下面會提到效果）空行問題： VS：在使用過程中對於VS的自動整理不太滿意，因為不會自動刪除空行當出現這種情況的時候，真的很無語，VS ctrl K D 是不會理會空行的，而且沒有辦法對

55分鐘學會正則表示式（來自Github）

推薦幾個正則表示式編輯器 Debuggex ：https://www.debuggex.com/ PyRegex：http://www.pyregex.com/

linux 正則表示式grep例項分析

在很多技術領域（如：自然語言處理，資料儲存等），正則表示式可以很方便的提取我們想要的資訊，所以正則表示式是一個很重要的知識點！

JS使用正則表示式實現常用的表單驗證功能分析

本文例項講述了JS使用正則表示式實現常用的表單驗證功能。分享給大家供大家參考，具體如下：

PHP正則表示式函式preg_replace用法例項分析

本文例項講述了PHP正則表示式函式preg_replace用法。分享給大家供大家參考，具體如下：