Python爬蟲爬取糗事百科段子例項分享

阿新 • • 發佈：2020-07-31

大家好，前面入門已經說了那麼多基礎知識了，下面我們做幾個實戰專案來挑戰一下吧。那麼這次為大家帶來，Python爬取糗事百科的小段子的例子。

首先，糗事百科大家都聽說過吧？糗友們發的搞笑的段子一抓一大把，這次我們嘗試一下用爬蟲把他們抓取下來。

本篇目標

1.抓取糗事百科熱門段子；

2.過濾帶有圖片的段子；

3.實現每按一次回車顯示一個段子的釋出時間，釋出人，段子內容，點贊數。

糗事百科是不需要登入的，所以也沒必要用到Cookie，另外糗事百科有的段子是附圖的，我們把圖抓下來圖片不便於顯示，那麼我們就嘗試過濾掉有圖的段子吧。

好，現在我們嘗試抓取一下糗事百科的熱門段子吧，每按下一次回車我們顯示一個段子。

1.確定URL並抓取頁面程式碼

首先我們確定好頁面的URL是 http://www.qiushibaike.com/hot/page/1，其中最後一個數字1代表頁數，我們可以傳入不同的值來獲得某一頁的段子內容。

我們初步構建如下的程式碼來列印頁面程式碼內容試試看，先構造最基本的頁面抓取方式，看看會不會成功。

#-*-coding:utf-8-*-
importurllib
importurllib2
page=1
url='http://www.qiushibaike.com/hot/page/'+str(page)
try:
request=urllib2.Request(url)
response=urllib2.urlopen(request)
printresponse.read()
excepturllib2.URLError,e:
ifhasattr(e,"code"):
printe.code
ifhasattr(e,"reason"):
printe.reason

執行程式，哦不，它竟然報錯了，真是時運不濟，命途多舛啊。

line373,in_read_status
raiseBadStatusLine(line)
httplib.BadStatusLine:''

好吧，應該是headers驗證的問題，我們加上一個headers驗證試試看吧，將程式碼修改如下：

#-*-coding:utf-8-*-
importurllib
importurllib2
page=1
url='http://www.qiushibaike.com/hot/page/'+str(page)
user_agent='Mozilla/4.0(compatible;MSIE5.5;WindowsNT)'
headers={'User-Agent':user_agent}
try:
request=urllib2.Request(url,headers=headers)
response=urllib2.urlopen(request)
printresponse.read()
excepturllib2.URLError,"reason"):
printe.reason

嘿嘿，這次執行終於正常了，打印出了第一頁的HTML程式碼，大家可以執行下程式碼試試看。在這裡執行結果太長就不貼了。

2.提取某一頁的所有段子

好，獲取了HTML程式碼之後，我們開始分析怎樣獲取某一頁的所有段子。

首先我們審查元素看一下，按瀏覽器的F12，截圖如下：

我們可以看到，每一個段子都是<div class=”article block untagged mb15″ id=”…”>…</div>包裹的內容。

現在我們想獲取釋出人，釋出日期，段子內容，以及點讚的個數。不過另外注意的是，段子有些是帶圖片的，如果我們想在控制檯顯示圖片是不現實的，所以我們直接把帶有圖片的段子給它剔除掉，只儲存僅含文字的段子。

所以我們加入如下正則表示式來匹配一下，用到的方法是 re.findall 是找尋所有匹配的內容。方法的用法詳情可以看前面說的正則表示式的介紹。

好，我們的正則表示式匹配語句書寫如下，在原來的基礎上追加如下程式碼：

content=response.read().decode('utf-8')
pattern=re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+
'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<divclass="stats.*?class="number">
(.*?)</i>',re.S)
items=re.findall(pattern,content)
foriteminitems:
printitem[0],item[1],item[2],item[3],item[4]

現在正則表示式在這裡稍作說明

1）.*? 是一個固定的搭配，.和*代表可以匹配任意無限多個字元，加上？表示使用非貪婪模式進行匹配，也就是我們會盡可能短地做匹配，以後我們還會大量用到 .*? 的搭配。

2）(.*?)代表一個分組，在這個正則表示式中我們匹配了五個分組，在後面的遍歷item中，item[0]就代表第一個(.*?)所指代的內容，item[1]就代表第二個(.*?)所指代的內容，以此類推。

3）re.S 標誌代表在匹配時為點任意匹配模式，點 . 也可以代表換行符。

這樣我們就獲取了釋出人，釋出時間，釋出內容，附加圖片以及點贊數。

在這裡注意一下，我們要獲取的內容如果是帶有圖片，直接輸出出來比較繁瑣，所以這裡我們只獲取不帶圖片的段子就好了。

所以，在這裡我們就需要對帶圖片的段子進行過濾。

我們可以發現，帶有圖片的段子會帶有類似下面的程式碼，而不帶圖片的則沒有，所以，我們的正則表示式的item[3]就是獲取了下面的內容，如果不帶圖片，item[3]獲取的內容便是空。

<divclass="thumb">
<ahref="/article/112061287?list=hot&amp;s=4794990" rel="external nofollow" target="_blank">
<imgsrc="http://pic.qiushibaike.com/system/pictures/11206/112061287/medium/app112061287.jpg"alt="但他們依然樂觀">
</a>
</div>

所以我們只需要判斷item[3]中是否含有img標籤就可以了。

好，我們再把上述程式碼中的for迴圈改為下面的樣子

foriteminitems:
haveImg=re.search("img",item[3])
ifnothaveImg:
printitem[0],item[4]

現在，整體的程式碼如下：

#-*-coding:utf-8-*-
importurllib
importurllib2
importre
page=1
url='http://www.qiushibaike.com/hot/page/'+str(page)
user_agent='Mozilla/4.0(compatible;MSIE5.5;WindowsNT)'
headers={'User-Agent':user_agent}
try:
request=urllib2.Request(url,headers=headers)
response=urllib2.urlopen(request)
content=response.read().decode('utf-8')
pattern=re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+
'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<divclass="stats.*?class="number">
(.*?)</i>',content)
foriteminitems:
haveImg=re.search("img",item[4]
excepturllib2.URLError,"reason"):
printe.reason

執行一下看下效果：

恩，帶有圖片的段子已經被剔除啦。是不是很開森？

3.完善互動，設計面向物件模式

好啦，現在最核心的部分我們已經完成啦，剩下的就是修一下邊邊角角的東西，我們想達到的目的是：

按下回車，讀取一個段子，顯示出段子的釋出人，釋出日期，內容以及點贊個數。

另外我們需要設計面向物件模式，引入類和方法，將程式碼做一下優化和封裝，最後，我們的程式碼如下所示：

__author__='CQC'
#-*-coding:utf-8-*-
importurllib
importurllib2
importre
importthread
importtime
#糗事百科爬蟲類
classQSBK:
#初始化方法，定義一些變數
def__init__(self):
self.pageIndex=1
self.user_agent='Mozilla/4.0(compatible;MSIE5.5;WindowsNT)'
#初始化headers
self.headers={'User-Agent':self.user_agent}
#存放段子的變數，每一個元素是每一頁的段子們
self.stories=[]
#存放程式是否繼續執行的變數
self.enable=False
#傳入某一頁的索引獲得頁面程式碼
defgetPage(self,pageIndex):
try:
url='http://www.qiushibaike.com/hot/page/'+str(pageIndex)
#構建請求的request
request=urllib2.Request(url,headers=self.headers)
#利用urlopen獲取頁面程式碼
response=urllib2.urlopen(request)
#將頁面轉化為UTF-8編碼
pageCode=response.read().decode('utf-8')
returnpageCode
excepturllib2.URLError,"reason"):
printu"連線糗事百科失敗,錯誤原因",e.reason
returnNone
#傳入某一頁程式碼，返回本頁不帶圖片的段子列表
defgetPageItems(self,pageIndex):
pageCode=self.getPage(pageIndex)
ifnotpageCode:
print"頁面載入失敗...."
returnNone
pattern=re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+
'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<divclass="stats.*?class="number">
(.*?)</i>',pageCode)
#用來儲存每頁的段子們
pageStories=[]
#遍歷正則表示式匹配的資訊
foriteminitems:
#是否含有圖片
haveImg=re.search("img",item[3])
#如果不含有圖片，把它加入list中
ifnothaveImg:
replaceBR=re.compile('<br/>')
text=re.sub(replaceBR,"\n",item[1])
#item[0]是一個段子的釋出者，item[1]是內容，item[2]是釋出時間,item[4]是點贊數
pageStories.append([item[0].strip(),text.strip(),item[2].strip(),item[4].strip()])
returnpageStories
#載入並提取頁面的內容，加入到列表中
defloadPage(self):
#如果當前未看的頁數少於2頁，則載入新一頁
ifself.enable==True:
iflen(self.stories)<2:
#獲取新一頁
pageStories=self.getPageItems(self.pageIndex)
#將該頁的段子存放到全域性list中
ifpageStories:
self.stories.append(pageStories)
#獲取完之後頁碼索引加一，表示下次讀取下一頁
self.pageIndex+=1

#呼叫該方法，每次敲回車列印輸出一個段子
defgetOneStory(self,pageStories,page):
#遍歷一頁的段子
forstoryinpageStories:
#等待使用者輸入
input=raw_input()
#每當輸入回車一次，判斷一下是否要載入新頁面
self.loadPage()
#如果輸入Q則程式結束
ifinput=="Q":
self.enable=False
return
printu"第%d頁\t釋出人:%s\t釋出時間:%s\t贊:%s\n%s"%(page,story[0],story[2],story[3],story[1])

#開始方法
defstart(self):
printu"正在讀取糗事百科,按回車檢視新段子，Q退出"
#使變數為True，程式可以正常執行
self.enable=True
#先載入一頁內容
self.loadPage()
#區域性變數，控制當前讀到了第幾頁
nowPage=0
whileself.enable:
iflen(self.stories)>0:
#從全域性list中獲取一頁的段子
pageStories=self.stories[0]
#當前讀到的頁數加一
nowPage+=1
#將全域性list中第一個元素刪除，因為已經取出
delself.stories[0]
#輸出該頁的段子
self.getOneStory(pageStories,nowPage)
spider=QSBK()
spider.start()

好啦，大家來測試一下吧，點一下回車會輸出一個段子，包括髮布人，釋出時間，段子內容以及點贊數，是不是感覺爽爆了！

我們第一個爬蟲實戰專案介紹到這裡，歡迎大家繼續關注，小夥伴們加油！

以上就是Python爬蟲爬取糗事百科段子例項分享的詳細內容，更多關於Python爬蟲爬取糗事百科段子的資料請關注我們其它相關文章！

Python爬蟲爬取糗事百科段子例項分享

大家好，前面入門已經說了那麼多基礎知識了，下面我們做幾個實戰專案來挑戰一下吧。那麼這次為大家帶來，Python爬取糗事百科的小段子的例子。

爬取糗事百科段子

# 匯入requests 和 BeautifulSoupimport requestsfrom bs4 import BeautifulSoupdef download_page(url):# 定義頭部，用來騙過瀏覽器headers ={\'User-Agent\': \'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWe

爬蟲爬取糗事百科標題燒烤醬到合肥jksdhgf

這一個爬取的網站是糗事百科的頁面去全部標題！最後是以列印的方式展現的！

Python批量爬取糗事百科短視訊，有意思的視訊還是蠻多的

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬取糗事百科視訊

一、題目要求：爬取糗事百科上的視訊並下載到本地磁碟二、程式碼 import requests

爬蟲筆記（三）爬取‘糗事百科’熱圖板塊所有圖

目的：爬取‘糗事百科’熱圖板塊所有圖在網頁response中可以發現，每個圖是一個沒有http開頭的、以.jpg結尾的連結，在這個連結前邊補上http可以成功訪問該圖片。

python爬蟲爬取百度百科資料

技術標籤：python爬蟲 #!/usr/bin/env python # -*- coding: utf-8 -*- import json import re import requests

爬蟲實戰：嗅事百科段子多頁爬取

技術標籤：爬蟲爬蟲python 假如我們想爬取糗事百科( http://ww qiushibaike.com/)上的段子，也可以編寫對應的Python網路爬蟲實現。

爬取糗事小百科上的視訊

簡單的一下：只爬取一個頁面上的（可以爬取多個頁面）用到了拼接format以及list的遍歷的等等小的知識點

Python爬蟲——爬取Python崗位的那些事

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲爬取煎蛋網圖片程式碼例項

這篇文章主要介紹了Python爬蟲爬取煎蛋網圖片程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

python爬蟲爬取幽默笑話網站

爬取網站為：http://xiaohua.zol.com.cn/youmo/ 檢視網頁機構，爬取笑話內容時存在如下問題：

Python爬蟲爬取Bilibili彈幕過程解析

先來思考一個問題，B站一個視訊的彈幕最多會有多少？比較多的會有2000條吧，這麼多資料，B站肯定是不會直接把彈幕和這個視訊綁在一起的。

python爬蟲爬取監控教務系統的思路詳解

這幾天考了大大小小几門課，教務系統又沒有成績通知功能，為了急切想知道自己掛了多少門，於是我寫下這個指令碼。

Python爬蟲爬取電影票房資料及圖表展示操作示例

本文例項講述了Python爬蟲爬取電影票房資料及圖表展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取、解析資料操作示例

本文例項講述了Python爬蟲爬取、解析資料操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取杭州24時溫度並展示操作示例

本文例項講述了Python爬蟲爬取杭州24時溫度並展示操作。分享給大家供大家參考，具體如下：

Python爬蟲爬取百度搜索內容程式碼例項

這篇文章主要介紹了Python爬蟲爬取百度搜索內容程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬蟲爬取部落格實現視覺化過程解析

原始碼： from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link=\'https://www.cnblogs.com/echoDetected/default.html?page=\'+str(i)

Python爬蟲爬取糗事百科段子例項分享

相關推薦