Python 爬蟲從入門到進階之路（十三）

阿新 • • 發佈：2019-07-08

之前的文章我們介紹了一下 BeautifulSoup4 模組，接下來我們就利用 BeautifulSoup4 模組爬取《糗事百科》的糗事。

之前我們已經分別利用 re 模組和 Xpath 模組爬取過糗百，我們只需要在其基礎上做一些修改就可以了，為了保證專案的完整性，我們重新再來一遍。

我們要爬取的網站連結是 https://www.qiushibaike.com/text/page/1/ 。

我們通過瀏覽器開發者工具的控制檯發現我們想要的資料在 <div class="content">......</div> 內：

根據上面的分析我們可以寫出程式碼如下：

 1 import urllib.request
 2 from bs4 import BeautifulSoup
 3 import ssl
 4 
 5 # 取消代理驗證
 6 ssl._create_default_https_context = ssl._create_unverified_context
 7 
 8 
 9 url = "https://www.qiushibaike.com/text/page/1/"
10 # User-Agent頭
11 user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36'
12 headers = {'User-Agent': user_agent}
13 req = urllib.request.Request(url, headers=headers)
14 response = urllib.request.urlopen(req)
15 # 獲取每頁的HTML原始碼字串
16 html = response.read().decode('utf-8')
17 # 解析html 為 Beautiful Soup 物件
18 soup = BeautifulSoup(html, "lxml")
19 content_list = soup.select('div.content')
20 print(content_list)

最終我們列印結果如下：

從上面的輸出結果可以看出我們已經拿到了我們想要的資料，並且是一個列表型別，我們對列表進行操作扥別拿到糗事再儲存到本地即可。

1 for item in item_list:
2     item = item.get_text().replace("\n", "")
3     self.writePage(item)

上面就可以實現一個獲取糗事百科的糗事的簡單爬蟲，但是隻能爬取單個頁面的內容，通過分析 url 我們發現 https://www.qiushibaike.com/text/page/1/ 中最後的 1 即為頁碼，我們就可以根據這個頁碼逐一爬取更多頁面的內容，最終的程式碼如下：

 1 import urllib.request
 2 from bs4 import BeautifulSoup
 3 import ssl
 4 
 5 # 取消代理驗證
 6 ssl._create_default_https_context = ssl._create_unverified_context
 7 
 8 
 9 class Spider:
10     def __init__(self):
11         # 初始化起始頁位置
12         self.page = 1
13         # 爬取開關，如果為True繼續爬取
14         self.switch = True
15 
16     def loadPage(self):
17         """
18            作用：開啟頁面
19         """
20         url = "https://www.qiushibaike.com/text/page/" + str(self.page) + "/"
21         # User-Agent頭
22         user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36'
23         headers = {'User-Agent': user_agent}
24         req = urllib.request.Request(url, headers=headers)
25         response = urllib.request.urlopen(req)
26         # 獲取每頁的HTML原始碼字串
27         html = response.read().decode('utf-8')
28         # 解析html 為 Beautiful Soup 物件
29         soup = BeautifulSoup(html, "lxml")
30         content_list = soup.select('div.content')
31         # 呼叫dealPage() 處理糗事裡的雜七雜八
32         self.dealPage(content_list)
33 
34     def dealPage(self, item_list):
35         """
36             @brief 處理得到的糗事列表
37             @param item_list 得到的糗事列表
38             @param page 處理第幾頁
39         """
40         for item in item_list:
41             item = item.get_text().replace("\n", "")
42             self.writePage(item)
43 
44     def writePage(self, text):
45         """
46             @brief 將資料追加寫進檔案中
47             @param text 檔案內容
48         """
49         myFile = open("./qiushi.txt", 'a')  # 追加形式開啟檔案
50         myFile.write(text + "\n\n")
51         myFile.close()
52 
53     def startWork(self):
54         """
55             控制爬蟲執行
56         """
57         # 迴圈執行，直到 self.switch == False
58         while self.switch:
59             # 使用者確定爬取的次數
60             self.loadPage()
61             command = input("如果繼續爬取，請按回車（退出輸入quit)")
62             if command == "quit":
63                 # 如果停止爬取，則輸入 quit
64                 self.switch = False
65             # 每次迴圈，page頁碼自增1
66             self.page += 1
67         print("爬取結束！")
68 
69 
70 if __name__ == '__main__':
71     # 定義一個Spider物件
72     qiushiSpider = Spider()
73     qiushiSpider.startWork()

最終會在本地新增一個 qiushi.txt 的檔案，結果如下：

Python 爬蟲從入門到進階之路（十三）

之前的文章我們介紹了一下 BeautifulSoup4 模組，接下來我們就利用 BeautifulSoup4 模組爬取《糗事百科》的糗事。之前我們已經分別利用 re 模組和 Xpath 模組爬取過糗百，我們只需要在其基礎上做一些修改就可以了，為了保證專案的完整性，我們重新再來一遍。我們要爬取

Java 從入門到進階之路（十三）

在之前的文章我們介紹了一下 Java 類的 private，static，final，本章我們來看一下 Java 中的抽象類和抽象方法。我們先來看下面一段程式碼： 1 // 根據周長求面積 2 class Square { // 方形類 3 double c; 4 5 doub

Vue 進階之路（十三）

之前的文章我們介紹了一下 vue 中的作用域插槽，本章我們來看一下動態元件與 v-once 指令。 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="UTF-8"&

Python 爬蟲從入門到進階之路（一）

通用爬蟲和聚焦爬蟲根據使用場景，網路爬蟲可分為通用爬蟲和聚焦爬蟲兩種. 通用爬蟲通用網路爬蟲是捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目的是將網際網路上的網頁下載到本地，形成一個網際網路內容的映象備份。通用

Python 爬蟲從入門到進階之路（二）

上一篇文章我們對爬蟲有了一個初步認識，本篇文章我們開始學習 Python 爬蟲例項。在 Python 中有很多庫可以用來抓取網頁，其中內建了 urllib 模組，該模組就能實現我們基本的網頁爬取。在 Python2.x 和 Python3.x 中 urllib 模組是不一樣的，但是用法上差不多，我們先

Python 爬蟲從入門到進階之路（三）

之前的文章我們做了一個簡單的例子爬取了百度首頁的 html，本篇文章我們再來看一下 Get 和 Post 請求。在說 Get 和 Post 請求之前，我們先來看一下 url 的編碼和解碼，我們在瀏覽器的連結裡如果輸入有中文的話，如：https://www.baidu.com/s?wd=貼吧，那麼瀏覽器會自

Python 爬蟲從入門到進階之路（四）

之前的文章我們做了一個簡單的例子爬取了百度首頁的 html，我們用到的是 urlopen 來開啟請求，它是一個特殊的opener（也就是模組幫我們構建好的）。但是基本的 urlopen() 方法不支援代理、cookie等其他的HTTP/HTTPS高階功能，所以我們需要用到 Python 的 opener 來自

Python 爬蟲從入門到進階之路（五）

在之前的文章中我們帶入了 opener 方法，接下來我們看一下 opener 應用中的 ProxyHandler 處理器（代理設定）。使用代理IP，這是爬蟲/反爬蟲的第二大招，通常也是最好用的。很多網站會檢測某一段時間某個IP的訪問次數(通過流量統計，系統日誌等)，如果訪問次數多的不像正常人，它會禁止

Python 爬蟲從入門到進階之路（六）

在之前的文章中我們介紹了一下 opener 應用中的 ProxyHandler 處理器（代理設定），本篇文章我們再來看一下 opener 中的 Cookie 的使用。 Cookie 是指某些網站伺服器為了辨別使用者身份和進行Session跟蹤，而儲存在使用者瀏覽器上的文字檔案，Cookie可以保持登入資訊到

Python 爬蟲從入門到進階之路（七）

在之前的文章中我們一直用到的庫是 urllib.request，該庫已經包含了平常我們使用的大多數功能，但是它的 API 使用起來讓人感覺不太好，而 Requests 自稱 “HTTP for Humans”，說明使用更簡潔方便。 Requests 唯一的一個非轉基因的 Pyth

Python 爬蟲從入門到進階之路（八）

在之前的文章中我們介紹了一下 requests 模組，今天我們再來看一下 Python 爬蟲中的正則表達的使用和 re 模組。實際上爬蟲一共就四個主要步驟：明確目標 (要知道你準備在哪個範圍或者網站去搜索) 爬 (將所有的網站的內容全部爬下來) 取 (去掉對我們沒用處的資料) 處理資料（按照

Python 爬蟲從入門到進階之路（九）

之前的文章我們介紹了一下 Python 中的正則表示式和與爬蟲正則相關的 re 模組，本章我們就利用正則表示式和 re 模組來做一個案例，爬取《糗事百科》的糗事並存儲到本地。我們要爬取的網站連結是 https://www.qiushibaike.com/text/page/1/ 。

Python 從入門到進階之路（二）

之前的文章我們對 Python 語法有了一個簡單的認識，接下來我們對 Python 中的 if while for 做一下介紹。上圖為 if 判斷語句的流程，無論任何語言，都會涉及到判斷問題，if 條件會進行 true 和 false 的判斷，如下： 1 num = 10 2 if num =

Python 從入門到進階之路（三）

在之前的文章我們介紹了一下 Python 中 if while for 的使用，本章我們來看一下 Python 中的變數型別。在 Python 定義變數時的規則是變數名 = 變數，Python 中的變數賦值不需要型別宣告。每個變數在記憶體中建立，都包括變數的標識，名稱和資料這些資訊。每個變數在使用前都

Python 從入門到進階之路（四）

之前的文章我們簡單介紹了一下 Python 的幾種變數型別，本篇文章我們來看一下 Python 中的函式。函式是組織好的，可重複使用的，用來實現單一，或相關聯功能的程式碼段。函式能提高應用的模組性，和程式碼的重複利用率。你已經知道Python提供了許多內建函式，比如print()。但你也可以自己建立函

Python 從入門到進階之路（五）

之前的文章我們簡單介紹了一下 Python 的函式，本篇文章我們來看一下 Python 中的面向物件。 Python從設計之初就已經是一門面向物件的語言，正因為如此，在Python中建立一個類和物件是很容易的。面向物件技術簡介類(Class): 用來描述具有相同的屬性和方法

Python 從入門到進階之路（六）

之前的文章我們簡單介紹了一下 Python 的面向物件，本篇文章我們來看一下 Python 中異常處理。我們在寫程式時，有可能會出現程式報錯，但是我們想繞過這個錯誤執行操作。即使我們的程式寫的沒問題，但是在執行時也可能會出錯，這是我們就需要將異常丟擲來解決，如下程式碼： 1 print(name)

Python 從入門到進階之路（七）

之前的文章我們簡單介紹了一下 Python 中異常處理，本篇文章我們來看一下 Python 中 is 和 == 的區別及深拷貝和淺拷貝。我們先來看一下在 Python 中的雙等號 == 。 == 是比較兩個物件的內容是否相等，即兩個物件的“值“”是否相等，不管兩者在記

React 從入門到進階之路（七）

之前的文章我們介紹了 React 表單詳解約束性和非約束性元件 input text checkbox radio select textarea 以及獲取表單的內容。接下來我們將介紹 React中的元件、父子元件、React props父元件給子元件傳值、子元

React 從入門到進階之路（八）

之前的文章我們介紹了 React中的元件、父子元件、React props父元件給子元件傳值、子元件給父元件傳值、父元件中通過refs獲取子元件屬性和方法。接下來我們將介紹 React propTypes defaultProps。之前我們已經根據

Python 爬蟲從入門到進階之路（十三）

相關推薦