Python學習之路（五）爬蟲（四）正則表示式爬去名言網

阿新 • • 發佈：2018-03-28

auth Python標準庫我們 color 匯總 eight code 比較 school

爬蟲的四個主要步驟

明確目標 (要知道你準備在哪個範圍或者網站去搜索)
爬 (將所有的網站的內容全部爬下來)
取 (去掉對我們沒用處的數據)
處理數據（按照我們想要的方式存儲和使用）

什麽是正則表達式

正則表達式，又稱規則表達式，通常被用來檢索、替換那些符合某個模式(規則)的文本。

正則表達式是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規則字符串”，這個“規則字符串”用來表達對字符串的一種過濾邏輯。

給定一個正則表達式和另一個字符串，我們可以達到如下的目的：

給定的字符串是否符合正則表達式的過濾邏輯（“匹配”）；

通過正則表達式，從文本字符串中獲取我們想要的特定部分（“過濾”）。

技術分享圖片

正則表達式匹配規則

技術分享圖片

Python 的 re 模塊

在 Python 中，我們可以使用內置的 re 模塊來使用正則表達式。

有一點需要特別註意的是，正則表達式使用對特殊字符進行轉義，所以如果我們要使用原始字符串，只需加一個 r 前綴，示例：

r‘chuanzhiboke\t\.\tpython‘

使用正則爬去名言網的名言，只獲取首頁的10條數據

from urllib.request import urlopen
import re

def spider_quotes():

    url  
= "http://quotes.toscrape.com"
    response = urlopen(url)
    html = response.read().decode("utf-8")

    #  獲取 10  個  名言
    quotes = re.findall(‘<span class="text" itemprop="text">(.*)</span>‘,html)
    list_quotes = []
    for quote in quotes:
        #  strip 從兩邊開始搜尋，只要發現某個字符在當前這個方法的範圍內，統統去掉 

        list_quotes.append(quote.strip("“”"))

    # 獲取 10 個名言的作者
    list_authors = []
    authors = re.findall(‘<small class="author" itemprop="author">(.*)</small>‘,html)
    for author in authors:
        list_authors.append(author)

    # 獲取這10個名言的  標簽
    tags = re.findall(‘<div class="tags">(.*?)</div>‘,html,re.RegexFlag.DOTALL)
    list_tags = []
    for tag in tags:
        temp_tags = re.findall(‘<a class="tag" href=".*">(.*)</a>‘,tag)
        tags_t1 = []
        for tag in temp_tags:
            tags_t1.append(tag)
        list_tags.append(",".join(tags_t1))

    # 結果匯總
    results = []
    for i in range(len(list_quotes)):
        results.append("\t".join([list_quotes[i],list_authors[i],list_tags[i]]))

    for result in results:
        print(result)

#調取方法
spider_quotes()

BeautifulSoup4解析器

BeautifulSoup 用來解析 HTML 比較簡單，API非常人性化，支持CSS選擇器、Python標準庫中的HTML解析器，也支持 lxml 的 XML解析器。

官方文檔：http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0

使用BeautifulSoup4獲取名言網首頁數據

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://quotes.toscrape.com"
response = urlopen(url)

# 初始化一個 bs 實例
#  對應的response對象的解析器， 最常用的解析方式，就是默認的  html.parser
bs = BeautifulSoup(response, "html.parser")

#  獲取 10  個  名言
spans = bs.select("span.text")
list_quotes = []
for span in spans:
    span_text = span.text
    list_quotes.append(span_text.strip("“”"))

# 獲取 10 個名言的作者
authors = bs.select("small")
list_authors = []
for author in authors:
    author_text = author.text
    list_authors.append(author_text)

# 獲取這10個名言的  標簽
divs = bs.select("div.tags")
list_tags = []
for div in divs:
    tag_text = div.select("a.tag")
    tag_list = [ tag_a.text for tag_a in tag_text]
    list_tags.append(",".join(tag_list))

#結果匯總
results = []
for i in range(len(list_quotes)):
    results.append("\t".join([list_quotes[i],list_authors[i],list_tags[i]]))

for result in results:
    print(result)

Python學習之路（五）爬蟲（四）正則表示式爬去名言網

auth Python標準庫我們 color 匯總 eight code 比較 school 爬蟲的四個主要步驟明確目標 (要知道你準備在哪個範圍或者網站去搜索) 爬 (將所有的網站的內容全部爬下來) 取 (去掉對我們沒用處的數據) 處理數據（按照我們想要的

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

Python學習之路（四）爬蟲（三）HTTP和HTTPS

CP 發出 net 長度現在消息頭理論 LV 模型 HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文本傳輸協議）：是一種發布和接收 HTML頁面的方法。 HTTPS（Hypertext Transfer Protoc

Python學習之路（三）爬蟲（二）

版權特殊機器人 zhang col 取出 log arch robots 通用爬蟲和聚焦爬蟲根據使用場景，網絡爬蟲可分為通用爬蟲和聚焦爬蟲兩種. 通用爬蟲通用網絡爬蟲是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目

王亟亟的Python學習之路（五）-dictionary，set,函式，函式引數

-dictionary -set -函式 -函式引數 dictionary 鍵-值（key-value）儲存，具有極快的查詢速度。為什麼反覆提起查詢速度，因為如果你一個用list只是為了獲取裡面X元素內容的話效能是相對比較查的，極力推薦

python學習之路（四）

[1] size class dex epc uri msu 語句這就是繼續昨天的學習，學到了數組。首先有兩個數組，name1和name2.我們可以將兩個數組合並 name1=[1,2,3,4] name2=[5,6,7,8] names=name1.extend(

Python學習之路——第二彈（認識python）

內容代碼結構計算戰術個人方法十分現在目的　　第一彈中我是說明了學習python的目的，主要為了自我提升的考慮，那麽為什麽我對python感興趣，python有什麽用了？本章就簡單說明下。　　python的用途很廣，而且代碼十分簡潔，不像java、c等其他

python學習之路——第三彈（作業篇第一題）

image 操作啟動程序代碼 color 鎖定文件文件文件內容數據作業一：編寫登錄接口1.輸入用戶名密碼2.認證成功後顯示歡迎信息3.輸錯三次後鎖定。所需知識點文件基本讀寫操作，循環，列表，字典上面的作業題是在學習完數據類型和簡單的文件操作之後布置的，

python學習之路（三）使用socketserver進行ftp斷點續傳

def += __init__ con 不存在不為 local 接收 class 最近學習python到socketserver，本著想試一下水的深淺，采用Python3.6. 目錄結構如下： receive_file和file為下載或上傳文件存放目錄,ftp_clie

python學習之路（十二）

pack 分享 psi python 模塊 shp 詳解階段 new from 這節主要介紹一下import！很實用的調用模塊的功能。導入模塊是導入真實的代碼而導入包是導入包下面的 __init__() 文件這兩個是不一樣的先說模塊定義模塊它就是一個

我的Python學習之路（day1）

python　　一直以來都不喜歡開發，也比較排斥，於是大學分專業選擇了網絡工程。但是學院又不重視網絡，大四實習的時候都去培訓開發唯獨我選擇了繼續沿著網絡方向走下去。現在已經工作一年多了，傳統網絡工程師的需求已經非常小了。最終還是回到了開發，選擇了Python，開啟我人生的新征程。　　這是到今天為止我寫過最長的

python學習之路（二） -- 函數、JSON、終端樣式

blog ade def 數量通過等於 name tuple args 函數函數構成定義函數:使用def即可 def __getName(idCard): return user_info[idCard].Name 其中，__get

Python 學習之路（二）

在外封裝過程數列 == 3.6 開頭 res form Python 學習之路（二）以下所用的是Python 3.6 一、條件語句簡單判斷 1 if 判斷條件： 2 執行語句…… 3 else： 4 執行語句…… 復雜判斷 1 if 判斷

Python學習之路（一）

Python 基礎 Python基礎學習1（1）變量在Python中用來存儲數據所指向的內存地址叫做變量（2）變量的命名變量的命名由數字，字母，下劃線組成，數字不能開頭；不要使用Python中的關鍵字和函數名稱來命名變量；命名時要簡明，具有描述性；變量名區分大小寫。命名方式遵循駝峰命名法和下劃線命名法

Python學習之路（3）——Python安裝以及環境變量的操作

all 頭部 http plain 雙擊 load 編譯源碼 borde 安裝Python windows： 1 2 3 4 5 6 7 1、下載安裝包 https://www.python.org/downloads/ 2、安裝

Python學習之路（4）——變量

TP width urn pass 分享圖片 comment port cin alex 1、聲明變量 1 2 3 4 #!/usr/bin/env python # -*- coding: utf-8 -*- name = "wupeiqi"

Python學習之路（2）——Python種類介紹

VM 種類廣泛分享 java字節碼流程字節碼基礎上 python Python的種類 Cpython Python的官方版本，使用C語言實現，使用最為廣泛，CPython實現會將源文件（py文件）轉換成字節碼文件（pyc文件），然後運行在Python虛擬

Day2----Python學習之路筆記（2）

cell 數據類型的轉換編碼格式 python3 () shel 不能索引 png 學習路線： Day1　　　　Day2　　　　Day3　　　　Day4　　　　Day5　　　　...待續　一、簡單回顧一下昨天的內容　　1. 昨天了解到了一些編碼的知識 1.1

Day1----Python學習之路筆記（1）

文件名常見 python3 3.2 HP lob 計算機硬件至少數字學習路線 Day1　　　　Day2　　　　Day3　　　　Day4　　　　Day5　　　　...待續　　　　一、了解開發語言　　1、高級語言：Python，Java，C++，C#，PHP，

python學習之路（基礎篇）——列表，字典，集合

cef mes 所有聽說基本變量 .so tdi 作用一、列表，元組操作定義列表 names = [‘Alex‘,"Tenglan",‘Eric‘] 查看 >>> names[0] ‘Alex‘ >>> names[2]

Python學習之路 （五）爬蟲（四）正則表示式爬去名言網

爬蟲的四個主要步驟

什麽是正則表達式

正則表達式匹配規則

Python 的 re 模塊

BeautifulSoup4解析器

相關推薦

Python學習之路（五）爬蟲（四）正則表示式爬去名言網