Python爬蟲學習，實戰一糗事百科（2017/7/21更新）

阿新 • • 發佈：2019-02-06

前言

這幾天學習爬蟲，網上看了一些教程，發現這個 http://cuiqingcai.com/990.html 是相當不錯的。

但可惜的是，整個教程是兩年前的，但是Python是2.x版本的，跟現在的3.x有一些基本的語法不同；還有糗事百科也經過了改版。
總之原來的爬蟲程式已經無法運行了。

藉此學習機會，我更新一下這篇文章。

目標程序

本身初學python，暫時用著python2，完成這次爬蟲實驗
文章順序按照原文章進行
分析原始碼構成，並進行修改以適應現在的糗事
最後改成Python3（未完成）

1.確定URL並頁面程式碼

現在的糗百URL為https://www.qiushibaike.com（熱門板塊） ，當然你可以進去到https://www.qiushibaike.com/hot/（24小時板塊）

這裡寫圖片描述

我們還是以熱門板塊來做，刷了幾頁過後發現，他是這樣的：   https://www.qiushibaike.com/8hr/page/5/?s=5001478，後面一堆玩意兒看不懂，
不過試了試https://www.qiushibaike.com/8hr/page/4，也是沒問題，那麼我們的URL就可以出來了

結合原文中的程式碼，我們這麼寫：

# -*- coding:utf-8 -*-
import urllib
import urllib2

page = 1
url = 'https://www.qiushibaike.com/8hr/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 

headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    print response.read()
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

2.關於headers驗證

這個headers是用來判斷網站訪問這是否是通過瀏覽器訪問的。
網上關於怎麼查詢headers很齊全。

這裡以chrome為例：

在網頁任意地方右擊選擇審查元素或者按下 shift+ctrl+c開啟chrome自帶的除錯工具;
選擇network標籤,重新整理網頁(在開啟除錯工具的情況下重新整理);
重新整理後在左邊查詢該網頁url(網址),點選
後右邊選擇headers,就可以看到當前網頁的http頭了;
我們用的自然是Request Headers

3.解碼，正則表示式分析

解碼：

利用2的程式碼我們可以抓取到網頁的程式碼，但看上去似乎是一堆亂碼，這個時候我們只需要將原始的讀取稍微轉化一下
response.read()變成response.read().decode('utf-8')

正則表示式

我們先來看原始碼和原頁面

content = response.read().decode('utf-8')
pattern = re.compile('<div.*?author">.*?<a.*?<img.*?>(.*?)</a>.*?<div.*?'+
                         'content">(.*?)<!--(.*?)-->.*?</div>(.*?)<div class="stats.*?class="number">(.*?)</i>',re.S)
items = re.findall(pattern,content)
for item in items:
    print item[0],item[1],item[2],item[3],item[4]

現在正則表示式在這裡稍作說明

1）.*?
是一個固定的搭配，.和*代表可以匹配任意無限多個字元，加上？表示使用非貪婪模式進行匹配，也就是我們會盡可能短地做匹配，以後我們還會大量用到
.*? 的搭配。

2）(.?)代表一個分組，在這個正則表示式中我們匹配了五個分組，在後面的遍歷item中，item[0]就代表第一個(.?)所指代的內容，item[1]就代表第二個(.*?)所指代的內容，以此類推。

3）re.S 標誌代表在匹配時為點任意匹配模式，點 . 也可以代表換行符。

這組樣例沒有圖片：
這裡寫圖片描述

分析（不考慮”+換行的問題）

pattern = re.compile(
            '<div.*?author">.*?
            <a.*?
            <img.*?>(.*?)</a>.*?//釋出人
            <div.*?'+'content">(.*?)//內容
            <!--(.*?)-->.*?//時間
            </div>(.*?)<div class="stats.*?//圖片內容
            class="number">(.*?)</i>'#點贊數
            ,re.S)

糗百改版：

這裡寫圖片描述

釋出人：
1. 從div class=”author”到div class=”author clearfix”
2. 原來只有一個釋出人的href，img後緊跟名字；現在有兩個，名字在第二個中的正文裡
內容：沒有改變
時間：已經刪去此功能
圖片：沒有修改，在內容和點贊之間的thumb裡
點贊數：沒有修改

修改完成後的總程式碼是和效果圖

import urllib
import urllib2
import re

page = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    pattern = re.compile('<div.*?author clearfix">.*?</a>.*?>(.*?)</a>.*?'+
                          '<div.*?content">.*?<span>(.*?)</span>(.*?)'+
                         '<div class="stats.*?class="number">(.*?)</i>',re.S)       
    items = re.findall(pattern,content)
    for item in items:
        haveImg = re.search("img",item[2])
        if not haveImg:
            print "釋出人： ",item[0],"內容：",item[1],"\n點贊數：",item[3]+'\n'
except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

這裡寫圖片描述

4.完善互動，設計面向物件模式

照著原始碼，稍微改改吧

import urllib
import urllib2
import re
import thread
import time


class QSBK:
    #初始化方法，定義一些變數
    def __init__(self):
        self.pageIndex = 1
        self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
        #初始化headers
        self.headers = { 'User-Agent' : self.user_agent }
        #存放段子的變數，每一個元素是每一頁的段子們
        self.stories = []
        #存放程式是否繼續執行的變數
        self.enable = False
    #傳入某一頁的索引獲得頁面程式碼
    def getPage(self,pageIndex):
        try:
            url = 'https://www.qiushibaike.com/8hr/page/' + str(pageIndex)
            #構建請求的request
            request = urllib2.Request(url,headers = self.headers)
            #利用urlopen獲取頁面程式碼
            response = urllib2.urlopen(request)
            #將頁面轉化為UTF-8編碼
            pageCode = response.read().decode('utf-8')
            return pageCode
        except urllib2.URLError, e:
            if hasattr(e,"reason"):
                print u"連線糗事百科失敗,錯誤原因",e.reason
                return None
    #傳入某一頁程式碼，返回本頁不帶圖片的段子列表
    def getPageItems(self,pageIndex):
        pageCode = self.getPage(pageIndex)
        if not pageCode:
            print "頁面載入失敗...."
            return None
        pattern = re.compile('<div.*?author clearfix">.*?</a>.*?>(.*?)</a>.*?'+
                          '<div.*?content">.*?<span>(.*?)</span>(.*?)'+
                         '<div class="stats.*?class="number">(.*?)</i>',re.S)
        items = re.findall(pattern,pageCode)
        #用來儲存每頁的段子們
        pageStories = []
        #遍歷正則表示式匹配的資訊
        for item in items:
            #是否含有圖片
            haveImg = re.search("img",item[3])
            #如果不含有圖片，把它加入list中
            if not haveImg:
                replaceBR = re.compile('<br/>')
                text = re.sub(replaceBR,"\n",item[1])
                #item[0]是一個段子的釋出者，item[1]是內容，item[3]是點贊數
                pageStories.append([item[0].strip(),text.strip(),item[3].strip()])
        return pageStories
    #載入並提取頁面的內容，加入到列表中
    def loadPage(self):
        #如果當前未看的頁數少於2頁，則載入新一頁
        if self.enable == True:
            if len(self.stories) < 2:
                #獲取新一頁
                pageStories = self.getPageItems(self.pageIndex)
                #將該頁的段子存放到全域性list中
                if pageStories:
                    self.stories.append(pageStories)
                    #獲取完之後頁碼索引加一，表示下次讀取下一頁
                    self.pageIndex += 1
    #呼叫該方法，每次敲回車列印輸出一個段子
    def getOneStory(self,pageStories,page):
        #遍歷一頁的段子
        for story in pageStories:
            #等待使用者輸入
            input = raw_input()
            #每當輸入回車一次，判斷一下是否要載入新頁面
            self.loadPage()
            #如果輸入Q則程式結束
            if input == "Q":
                self.enable = False
                return
            print u"第%d頁\t釋出人:%s\t贊:%s\n%s\n" %(page,story[0],story[2],story[1])
    #開始方法
    def start(self):
        print u"正在讀取糗事百科,按回車檢視新段子，Q退出"
        #使變數為True，程式可以正常執行
        self.enable = True
        #先載入一頁內容
        self.loadPage()
        #區域性變數，控制當前讀到了第幾頁
        nowPage = 0
        while self.enable:
            if len(self.stories)>0:
                #從全域性list中獲取一頁的段子
                pageStories = self.stories[0]
                #當前讀到的頁數加一
                nowPage += 1
                #將全域性list中第一個元素刪除，因為已經取出
                del self.stories[0]
                #輸出該頁的段子
                self.getOneStory(pageStories,nowPage)


spider = QSBK()
spider.start()

Python爬蟲學習，實戰一糗事百科（2017/7/21更新）

前言這幾天學習爬蟲，網上看了一些教程，發現這個 http://cuiqingcai.com/990.html 是相當不錯的。但可惜的是，整個教程是兩年前的，但是Python是2.x版本的，跟現在的3.x有一些基本的語法不同；還有糗事百科也經過了改版。總

Python爬蟲學習筆記總結(一)

〇. python 基礎先放上python 3 的官方文件:https://docs.python.org/3/ (看文件是個好習慣) 關於python 3 基礎語法方面的東西,網上有很多,大家可以自行查詢. 一. 最簡單的爬取程式爬取百度首頁原始碼:

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

利用爬蟲我們可以獲取大量的價值資料，從而獲得感性認識中不能得到的資訊，這篇文章給大家帶來了一個月入門Python學習,爬蟲輕鬆爬取大規模資料，感興趣的朋友一起看看吧資料獲取方式：Python技術學習QQ群832339352 新增即可免費獲取！ Python爬蟲為

Python爬蟲學習，抓取網頁上的天氣資訊

今天學習了使用python編寫爬蟲程式，從中國天氣網爬取杭州的天氣。使用到了urllib庫和bs4。bs4提供了專門針對html的解析功能，比用RE方便許多。 # coding : UTF-8 import sys reload(sys) sys.setdef

【爬蟲入門】抓取糗事百科的段子1.0

爬取糗事百科資訊注意：爬取任何一個網站，首先要確定的就是這個網站是靜態網站還是動態網站。其次看看這個GET請求是否攜帶了特殊的引數。最後需要留意請求頭中的Cookie資訊。 class QSBKSpider(object): """ 爬蟲類 """

爬蟲--使用scrapy爬取糗事百科並在txt文件中持久化存儲

max color 圖片得到 acc deb ould ins ant 工程目錄結構　spiders下的first源碼　　 # -*- coding: utf-8 -*- import scrapy from firstBlood.items imp

python—多協程爬取糗事百科熱圖

wow64 monk 根據 list 網址 real span 本地 uil 今天在使用正則表達式時未能解決實際問題，於是使用bs4庫完成匹配，通過反復測試，最終解決了實際的問題，加深了對bs4.BeautifulSoup模塊的理解。爬取流程前奏：分析糗事百科熱圖板塊

python多執行緒爬蟲+批量下載鬥圖啦圖片專案（關注、持續更新）

python多執行緒爬蟲專案（）爬取目標：鬥圖啦（起始url：http://www.doutula.com/photo/list/?page=1）爬取內容：鬥圖啦全網圖片使用工具：requests庫實現傳送請求、獲取響應。　　　　　　　xpath實現資料解析、提取和清洗　　　　　　　thr

kali學習筆記——實戰sqlmap入侵某網站（存在sql注入漏洞）

前言直接上實戰，原理在下面會簡單介紹，有需要詳細教程的到這裡下載： https://download.csdn.net/download/u013819875/10503430 首先宣告我也只是一個網路愛好者，菜鳥水平（不過php，sql都是學過，有一些基礎的），寫這篇文章權當學

【python爬蟲】動態載入頁面的解決辦法（以ins為例）

現在很多的web頁面使用ajax技術動態載入頁面。但對於爬蟲來說，目標資料很可能不在頁面HTML原始碼中（右鍵檢視網頁原始碼，通過F12查詢），針對靜態頁面的爬蟲不再滿足現在的需求。很多教程都推薦用Selenium和PhantomJS配合使用，實現網頁的渲染，得到網頁的全

機器學習sklearn庫的使用--部署環境（python2.7 windows7 64bit）

最近在學習機器學習的內容，難免地，要用到Scikit-learn（sklearn，下同）這一機器學習包。為了使用sklearn庫，我們需要安裝python2.7，pip install工具，numpy+mkl、scipy、pandas、sklearn等開源包。其

呼叫Android系統自帶相機拍照，從相簿中獲取圖片（相容7.0系統）

一，前言：在日常的手機應用開發過程中，經常會遇到上傳圖片的需求，像上傳頭像之類的，這就需要呼叫系統的相機，相簿獲取照片。但是在Android 系統7.0之後認為這種操作是不安全的，這篇文章主要就是記錄7.0獲取照片遇到的問題。二，FileProvider介紹都

Cocos2d-x：學習筆記（2017.05.12更新）

1.參考連結彙總 2.建立Sprite auto bg = Sprite::create("level-background-0.jpg"); bg-&g

Android實戰——jsoup實現網絡爬蟲，糗事百科項目的起步

網絡數據標識爬蟲 android thumb 技術分享由於網絡數界面本篇文章包括以下內容：前言 jsoup的簡介 jsoup的配置 jsoup的使用結語對於Android初學者想要做項目時，最大的煩惱是什麽？毫無疑問是數據源的缺乏，當然可以選

Python資料爬蟲學習筆記（17）Scrapy糗事百科自動爬蟲

一、需求：在糗事百科主頁下，無需設定頁碼，自動爬取所有段子詳情頁的段子完整內容。（1）糗事百科主頁：（2）段子詳情頁：二、Scrapy實現思路：在糗事百科主頁上自動提取出所有段子的詳情連結，在每個段字詳情頁中爬取段子內容。三、網頁原始

Python爬蟲學習路線，強烈建議收藏這十一條

前言（一）如何學習Python 學習Python大致可以分為以下幾個階段： 1.剛上手的時候肯定是先過一遍Python最基本的知識，比如說：變數、資料結構、語法等，基礎過的很快，基本上1~2周時間就能過完了，我當時是在這兒看的基礎：Pyt

python 爬蟲學習三（Scrapy 實戰，豆瓣爬取電影資訊）

利用Scrapy爬取豆瓣電影資訊主要列出Scrapy的三部分程式碼： spider.py檔案： # _*_ coding=utf-8 _*_ import scrapy from course.douban_items import DouBanItem from scra

python爬蟲學習實踐(一)：requests庫和正則表示式之淘寶爬蟲實戰

使用requests庫是需要安裝的，requests庫相比urllib 庫來說更高階方便一點，同時與scrapy相比較還是不夠強大，本文主要介紹利用requests庫和正則表示式完成一項簡單的爬蟲小專案----淘寶商品爬蟲。有關於更多requests庫的使用方法請參考：官方文件第一步：我們先開啟淘寶網頁然後搜

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

爬蟲實戰1--抓取糗事百科段子

爬蟲1.提取某一頁的所有段子 # -*- coding:utf-8 -*- import urllib import urllib2 import re page = 1 url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page) user_agen

Python爬蟲學習，實戰一糗事百科（2017/7/21更新）

前言

目標程序

1.確定URL並頁面程式碼

2.關於headers驗證

3.解碼，正則表示式分析

4.完善互動，設計面向物件模式

相關推薦