python爬蟲--解析網頁幾種方法之正則表達式

阿新 • • 發佈：2017-09-30

ima 3.5 ref string tex href quest user lin

1、正則表達式

正則表達式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。

re 模塊使 Python 語言擁有全部的正則表達式功能。

re.match函數

re.match 嘗試從字符串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none。

技術分享

import re
print(re.match(‘www‘, ‘www.runoob.com‘).span())  # 在起始位置匹配
print(re.match(‘com‘, ‘www.runoob.com‘))         # 不在起始位置匹配

結果：

(0, 3)
None

import 
 re

line = "Cats are smarter than dogs"

matchObj = re.match( r‘(.*) are (.*?) .*‘, line)

if matchObj:
   print ("matchObj.group() : ", matchObj.group())
   print ("matchObj.group(1) : ", matchObj.group(1))
   print ("matchObj.group(2) : ", matchObj.group(2))
else:
   print ("No match!!")

結果：

matchObj.group() :  Cats are smarter than dogs
matchObj.group( 
1) :  Cats
matchObj.group(2) :  smarter

r‘(.*) are (.*?) .*‘,r的意思為raw string，純粹的字符串，group（0），是匹配正則表達式整體結果，group(1) 列出第一個括號匹配部分，group(2) 列出第二個括號匹配部分。

re.search方法

re.search 掃描整個字符串並返回第一個成功的匹配。

re.match只匹配字符串的開始，如果字符串開始不符合正則表達式，則匹配失敗，函數返回None；而re.search匹配整個字符串，直到找到一個匹配。

import re

line = "Cats are smarter than dogs 
";

matchObj = re.match( r‘dogs‘, line, re.M|re.I)
if matchObj:
   print ("match --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")

matchObj = re.search( r‘dogs‘, line, re.M|re.I)
if matchObj:
   print ("search --> matchObj.group() : ", matchObj.group())
else:
   print ("No match!!")

結果：

No match!!
search --> matchObj.group() :  dogs

re.findall方法

findall能夠找到所匹配的結果，並且以列表的形式返回。

import requests
import re

link = "http://www.sohu.com/"
headers = {‘User-Agent‘ : ‘Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6‘}
r = requests.get(link, headers= headers)
html = r.text
title_list = re.findall(‘href=".*?".<strong>(.*?)</strong>‘,html)
print (title_list)

[‘新聞‘, ‘財經‘, ‘體育‘, ‘房產‘, ‘娛樂‘, ‘汽車‘, ‘時尚‘, ‘科技‘, ‘美食‘, ‘星座‘, ‘郵箱‘, ‘地圖‘, ‘千帆‘, ‘暢遊‘]

抓取搜狐的主標題。

技術分享

python爬蟲--解析網頁幾種方法之正則表達式

ima 3.5 ref string tex href quest user lin 1、正則表達式正則表達式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。 re 模塊使 Python 語言擁有全部的正則表達式功能。 re.match函數 re.

python爬蟲--解析網頁幾種方法之BeautifulSoup

first div xml html find 抓取 XML 格式速度慢析取一.解析器概述 soup=BeautifulSoup(response.body) 對網頁進行析取時，並未規定解析器，此時使用的是python內部默認的解析器“html.parser”

Python爬蟲(十一)_案例：使用正則表達式的爬蟲

main try 不出測試 ref 分享圖片封裝 ram 成員方法本章將結合先前所學的爬蟲和正則表達式知識，做一個簡單的爬蟲案例，更多內容請參考:Python學習指南現在擁有了正則表達式這把神兵利器，我們就可以進行對爬取到的全部網頁源代碼進行篩選了。下面我們一

python爬蟲知識點總結（九）Requests+正則表達式爬取貓眼電影

bsp code item 代碼 proc action none width auth 一、爬取流程二、代碼演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:[email protected] #date:20

python爬蟲之正則表達式

ner cde 輸入 set 神奇 tro 轉義規則 error 一、簡介　　正則表達式，又稱正規表示式、正規表示法、正規表達式、規則表達式、常規表示法（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），計算機科學的一個概念。

python 爬蟲入門之正則表達式一

簡單換行 find www. ever page oct search utf python 正則表達式知識點正則常用符號. : 匹配任意字符，換行符除外* ：匹配前一個字符 0 次或者無限次？：匹配前一個字符 0次或者1次.* ：貪心算法.*？：非貪心算

Python爬蟲學習之正則表達式爬取個人博客

9.png turn () htm parent ast string 則表達式 urn 實例需求：運用python語言爬取http://www.eastmountyxz.com/個人博客的基本信息，包括網頁標題，網頁所有圖片的url，網頁文章的url、標題以及摘要。實

python學習之正則表達式

python學習之正則表達式一、什麽是正則？通過re模塊匹配來匹配需要的字符串二、正則匹配模式模式描述 \w 匹配字母數字下劃線 \W 匹配非字母數字下劃線 \s 匹配空白字符,等價於[\t\n\r\n] \S 匹配任意非空字符

Python基礎知識之正則表達式re模塊

轉換成 spl html href earch 大小轉載 rec city **轉載自：http://www.cnblogs.com/alex3714/articles/5161349.html** re模塊常用方法 re.match(規則，字符串):默認從開頭開始

Boost之正則表達式Regex庫的使用方法

Boost Regex庫這個程序可以簡潔的挑出了目標字符串。 #include <cstdlib> #include <stdlib.h> #include <boost/regex.hpp> #include <stdlib.h>

Python課堂筆記之正則表達式

小寫多個一個指定 pytho 找到 IT groups 表達正則表達式的基本使用re.match(r’xxx’, 匹配的字符串) 嘗試從字符串的起始位置匹配一個模式匹配成功re.match方法返回一個匹配的對象，否則返回None。可以使用group(num) 或 g

Python初識模塊之正則表達式

blank tool [] 字符串一個數 pre href col 測試工具什麽是正則表達式　　正則表達式是字符串匹配的一種規則，在線測試工具http://tool.chinaz.com/regex/ [字符組]在同一個位置可能出現的各種字符組成了一個字符組，在正則

Python學習手冊之正則表達式示例--郵箱地址提取

nbsp logs 電子 edi tro 點擊用戶名手冊 com 在上一篇文章中，我們介紹了 Python 的捕獲組和特殊匹配字符串，現在我們介紹 Python 的正則表達式使用示例。查看上一篇文章請點擊：https://www.cnblogs.com/dustman/

Python之正則表達式模塊

abc 正則表達十進制 bcd 得到 spl 打印 d+ 正則表達式正則表達式符號： . ^ $ * + ? {} () | [] .一個點代表一個字符 ^代表開頭 $代表結尾 *代表有0到無數個 [0,+00] ?代表有0到1個 [0,1] +代表有1到無數

python基礎之正則表達式，re模塊

方便轉義 python pan imp 解決進行 nbsp 每一個正則表達式：是字符串的規則，只是檢測字符串是否符合條件的規則而已 1.檢測某一段字符串是否符合規則 2.將符合規則的匹配出來 re模塊：是用來操作正則表達式的 2.正則表

Linux之正則表達式

upper body 16px 大小 html 管道 lower egrep 小寫字母正則表達式與通配符的區別: 最常應用正則表達式的命令是grep（egrep），sed，awk。正則表達式和通配符有本質區別，正則表達式用來找：【文件】內容，文本，字

前端學PHP之正則表達式基礎語法

版本得到則表達式特性邊界包括報錯正則表達式基礎性能提升前面的話　　正則表達式是用於描述字符排列和匹配模式的一種語法規則。它主要用於字符串的模式分割、匹配、查找及替換操作。在PHP中，正則表達式一般是由正規字符和一些特殊字符(類似於通配符)聯合構成的一個文

python基礎13 ---函數模塊3(正則表達式)

匹配字符串特殊字符註意末尾高度功能 all -a match 正則表達式一、正則表達式的本質　　1、正則表達式的本質（或 RE）是一種小型的、高度專業化的編程語言，（在Python中）它內嵌在Python中，並通過 re 模塊實現。正則表達式模式被編譯成一系列

走入計算機的第二十五天（內置模塊3之正則表達式）

不同的 hello col font 數字 ans -a class 本質一什麽是正則表達式就其本質而言，正則表達式（或 RE）是一種小型的、高度專業化的編程語言，（在Python中）它內嵌在Python中，並通過 re 模塊實現。正則表達式模式被編譯成一系列的字節碼

表單驗證之正則表達式

cti 信用卡 for 整除 develop 虛擬 accep das 一位 1. 手機號驗證經網絡查詢可知，中國三大運營商號碼波段主要有： (1). 移動號段： 134 135 136 137 138 139 147 150 151 152 157 158

python爬蟲--解析網頁幾種方法之正則表達式

re.match函數

re.search方法

re.findall方法

相關推薦