Python爬蟲入門——2. 5 爬取鬥破蒼穹並儲存到本地TXT

阿新 • • 發佈：2019-02-11

話不多說，上程式碼：

#匯入requests庫
import requests
#匯入 re 庫
#匯入時間模組
import time
import re
#定義請求頭，請求頭可以使爬蟲偽裝成瀏覽器
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'}
#定義連線網路的列表
url_list = ['http://www.doupoxs.com/doupocangqiong/{}.html'.format(str(i)) for i in range(2,1665) ]

#函式主體
with open('F:/exercise/鬥破蒼穹.txt', 'w') as f:
    for url in url_list:
        html = requests.get(url, headers = headers)
        #如果status_code = 200， 說明網頁相應成功
        if html.status_code == 200:
            #利用正則表示式獲取內容
            contents = re.findall('<p>(.*?)</p>', html.content.decode('utf-8'), re.S)
                #將內容寫入到本地txt文件

            f.write('\n\n')
            for content in contents:
                f.write(content+'\n')
        else:
            pass
    time.sleep(0.5)

現在來分析程式碼：

1.匯入requests庫、time模組、re 模組、定義請求頭

2.構造ur連線列表http://www.doupoxs.com/doupocangqiong/ { }.html 區間為[2,1665) 左閉右開，其中3，4網頁為404

3.在本地建立一個TXT檔案，命名為 ”鬥破蒼穹.txt“ 。利用with 語句來進行檔案的寫操作。

3.1利用 with 語句開啟 open 路徑為 “F:/exercise/鬥破蒼穹.txt”的檔案，“w”為寫操作。

3.2利用 for 迴圈讀入 URL ，利用requests讀取網頁內容

3.3.判斷是否成功連線網頁，如果成功連線網頁則：

3.3.1利用正則表示式獲取文章內容。注意，我們獲得的是非utf-8編碼，因此在這裡我們多了一個步驟，就是將獲取到的內容轉換為utf-8編碼。你可以將 html.content.decode('utf-8) 更換為 html.text 列印一小部分內容觀察一下。

3.3.2在文字寫入兩行空格，用來區分章節。

3.3.3迴圈讀入獲取到的內容，將其寫入文字中

3.4如果連線失敗，那麼就pass吊此次迴圈，進入下一個迴圈。

3.5讓程式休息0.5秒，防止一直在執行，頻率過高從而導致爬蟲失敗。

檔案操作：

開啟檔案進行操作之後需要將開啟的檔案關閉。否則會一直佔用資源。但有時程式出現問題，導致開啟的檔案不能正常關閉，所以我們會用 try... finally來進行檔案的操作。但是這樣未免顯得繁瑣。所以 Python引入了 with 語句來自動關閉 close 檔案。用法是 with open（“path”，‘identifier’）as f 其中path指的是檔案的路徑，包括檔名；‘identifier’ 是識別符號，表示的是對檔案進行何種操作： ‘r' 表示讀檔案： ’w' 表示寫檔案： ‘rb’ 表示讀取二進位制檔案（比如圖片，視訊等）。

下圖為成功讀取儲存的《鬥破蒼穹》文字文件：

Python爬蟲入門——2. 5 爬取鬥破蒼穹並儲存到本地TXT

Python爬蟲入門——2. 5 爬取鬥破蒼穹並儲存到本地TXT

python爬蟲由淺入深9---定向爬取股票資料資訊並儲存至本地檔案

Python爬蟲入門 | 7 分類爬取豆瓣電影，解決動態載入問題

Python爬蟲入門 | 6 將爬回來的數據存到本地

python爬蟲實戰筆記---selenium爬取QQ空間說說並存至本地

Python爬蟲入門教程 5-100 27270圖片爬取

Python爬蟲入門 | 2 爬取豆瓣電影資訊

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

Python爬蟲+requests+偽裝瀏覽器爬取小說入門總結

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

Python爬蟲系列 - 初探：爬取旅遊評論

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

Python 爬蟲簡單實現（爬取下載連結）

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

python爬蟲——40行程式碼爬取「筆趣看」全部小說你都看了嗎？

Python爬蟲系列 - 初探：爬取新聞推送

python+scrapy入門教程之爬取騰訊招聘職位資訊

Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(執行緒池版)

Python爬蟲入門——2. 5 爬取鬥破蒼穹並儲存到本地TXT

相關推薦