正則表示式-爬蟲獲取豆瓣電影超連結

阿新 • • 發佈：2020-08-06

視訊學習資料：

https://www.bilibili.com/video/BV12E411A7ZQ?p=22

常用正則表示式知識總結與應用：

原文地址：https://www.cnblogs.com/zxin/archive/2013/01/26/2877765.html

一、正則表示式簡單解析

正則表示式：（判斷字串是否符合一定的標準）

二、Re庫主要功能函式

新增的模式限定：

注意*：建議在正則表示式中，被比較的字串前面加上人，不用擔心轉義字元的問題

三、原始碼案例

import urllib.request,urllib.error  #指定URL獲取網頁資料
import bs4  #網頁解析資料獲取 

import re   #正則表示式，進行文字匹配的
import xlwt  #進行excel操作
import sqlite3  #進行SQLite資料庫操作
from bs4 import  BeautifulSoup
#主函式
def main():
    baseurl="https://movie.douban.com/top250?start="
    #1.爬取網頁    #2.逐一解析資料
    dataList=getDate(baseurl)
    #3.儲存資料
    #savepath=""
    #saveData(savepath)
    #askURL("https://movie.douban.com/top250?start=") 


#影片詳情連結的規則
findLink=re.compile(r'<a href="(.*?)">')   #生成正則表示式物件，表示規則（字串的模式）


#-------------------------相關函式-----------------------------
#1.爬取網頁
def getDate(baseurl):
    dataList=[]
    for i in range(0,1):  #迴圈爬取頁面，呼叫活頁頁面資訊的函式10次
        url=baseurl+str(i*25)
        html= askURL(url)  #儲存獲取到的網頁原始碼 


        #2.逐一解析資料
        soup=BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"): #查詢符合要求的字串
            #print(item)    #測試：檢視電影item全部資訊
            data=[] #儲存一部電影的所有資訊
            item=str(item)

            #獲取影片詳情連結
            link=re.findall(findLink,item)[0]   #re庫用來通過正則表示式查詢指定的字串
            print(link)

    return dataList



#得到指定一個URL的網頁內容
def askURL(url):
    head={   #模擬瀏覽器頭部訊息，向豆瓣伺服器傳送訊息
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
    }
    #使用者代理表示告訴豆瓣伺服器，我們是什麼型別的機器，瀏覽器（本質上是告訴瀏覽器，我們可以接收什麼水平的檔案內容）
    request=urllib.request.Request(url,headers=head)
    html=""
    try:
        response=urllib.request.urlopen(request)
        html=response.read().decode("utf-8")
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html



#3.儲存資料
def saveData(savepath):
    print("print...")

if __name__=="__main__":   #當程式執行時,更容易管理程式碼主流程（程式入口）
#呼叫函式
    main();

View Code

四、執行截圖

正則表示式-爬蟲獲取豆瓣電影超連結

視訊學習資料： https://www.bilibili.com/video/BV12E411A7ZQ?p=22 常用正則表示式知識總結與應用：

爬蟲——正則表示式爬取豆瓣電影TOP前250的中英文名

正則表示式爬取豆瓣電影TOP前250的中英文名 1、首先要實現網頁的資料的爬取。新建test.py檔案

JAVA 正則表示式陳廣佳版本(超詳細)

在Sun的Java JDK 1.40版本中，Java自帶了支援正則表示式的包，本文就拋磚引玉地介紹瞭如何使用java.util.regex包。

Python爬蟲獲取豆瓣電影並寫入excel

豆瓣電影排行榜前250 分為10頁，第一頁的url為https://movie.douban.com/top250,但實際上應該是https://movie.douban.com/top250?start=0 後面的引數0表示從第幾個開始，如0表示從第一（肖申克的救贖）到第二十五

JS常用正則表示式超全集(密碼強度校驗,金額校驗,IE版本,IPv4,IPv6校驗)

有時候正則表示式可以大大提高我們的開發效率呢比如這段校驗基本日期格式的javascript程式碼：

js獲取富文字中的第一張圖片(正則表示式)

js獲取富文字中的第一張圖片url正則公式及去除字串裡面的html標籤後臺發來一個富文字字串裡面可能包含了0、1、2、3…個圖片標籤（img）,我們的任務是獲取這個字串裡面第一張圖片的url，如果沒有圖片則返回空

C# 利用正則表示式獲取富文字框中所有圖片路勁

直接上程式碼 1 public static string[] GetHtmlImageUrlList(string htmlText) 2{ 3Regex regImg = new Regex(@\"<img\\b[^<>]*?\\bsrc[\\s\\t\\r\\n]*=[\\s\\t\\r\\n]*[\"\"‘]?[\\s\\t\\r\\n]*(?<