Python3爬蟲之四簡單爬蟲架構【爬取百度百科python詞條網頁】

阿新 • • 發佈：2019-02-01

前面介紹了Python寫簡單的爬蟲程式，這裡參考慕課網 Python開發簡單爬蟲總結一下爬蟲的架構。讓我們的爬蟲程式模組劃分更加明確，程式碼具有更佳的邏輯性、可讀性。因此，我們可以將整個爬蟲程式總結為以下5個模組：

1、爬蟲排程端：負責啟動、停止、監控爬蟲程式的執行；

2、URL管理器：負責爬蟲執行過程中待爬取的URL佇列和已爬取的URL佇列的管理【防重複、防迴圈抓取】；

3、網頁下載器：把url指向的網頁下載下來；

4、網頁解析器：解析下載下來的網頁，一方面可以得到網頁中有價值的資訊，另一方面可以得到網頁中新的URL連結，儲存到URL管理器中；

5、結果：將解析器中得到的結果按我們期望的格式展現出來；

整個執行過程就是，排程器啟動爬蟲，從URL管理器中取一條待爬取的URL，呼叫下載器進行網頁的下載，呼叫網頁解析器對下載的網頁進行解析，將新的URL加入到URL管理器中，將提取到的資料展示出來。如圖

下面以爬取百度百科Python詞條為例【http://baike.baidu.com/item/Python】，運用爬蟲架構的方式實現相關頁面的抓取：

1、爬蟲總除錯程式---負責對程式各模組的排程

# coding=utf-8

from BaikePython import URLManager, HTMLDownloader, HTMLParser, HTMLOutput

# 爬蟲總排程程式
class SpiderMain(object):
    # 建構函式初始化url管理器、HTML下載器、HTML解析器、輸出四個物件
    def __init__(self):
        # url管理器
        self.urls = URLManager.url_manager()
        # url下載器
        self.downloader = HTMLDownloader.html_downloader()
        # url解析器
        self.parser = HTMLParser.html_parser()
        # 最終的輸出
        self.outputer = HTMLOutput.html_output()

    # 爬蟲排程程式
    def craw(self, root_url):
        count = 1
        # 新增入口URL
        self.urls.add_new_url(root_url)
        while self.urls.has_new_url():
            try:
                # 取出新的URL
                new_url = self.urls.get_new_url()
                # 下載該url對應的頁面
                print("craw %d : %s" % (count, new_url))
                html_cont = self.downloader.download(new_url)
                # 解析該url對應的頁面，得到新的連結和內容
                new_urls, new_data = self.parser.parse(new_url, html_cont)
                # 將新url新增到url管理器中
                self.urls.add_new_urls(new_urls)
                # 將解析到的內容收集起來
                self.outputer.collect_data(new_data)

                if count == 1000:  # 爬取1000個頁面即可
                    break
                count = count + 1

            except:
                print("craw fail")
        # 最終輸出爬取目標的內容
        self.outputer.output_html()


# 主函式啟動爬蟲
if __name__=="__main__":
    # root_url = "http://baike.baidu.com/item/Python/407313?fr=aladdin"
    root_url = "http://baike.baidu.com/item/Python"
    obj_Spider = SpiderMain()
    obj_Spider.craw(root_url)

2、URL管理器---維護待爬取URL和已爬取URL兩個佇列

class url_manager(object):
    # URL管理器中維護兩個集合
    def __init__(self):
        # 待爬取的url集合
        self.new_urls = set()
        # 已爬取的url集合
        self.old_urls = set()

    # 向管理器中新增一個新的url
    def add_new_url(self, url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)

    # 向管理器中批量新增urls
    def add_new_urls(self, urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    # 判斷待爬取列表是否有待爬取的url
    def has_new_url(self):
        return len(self.new_urls) != 0

    # 從待爬取的集合中獲取一個需要爬取的url
    def get_new_url(self):
        new_url = self.new_urls.pop()
        self.old_urls.add(new_url)
        return new_url

3、網頁下載器---下載指定的頁面【有三種方法】

import urllib


class html_downloader(object):

    # 下載url對應的頁面
    def download(self, url):
        if url is None:
            return None

        response = urllib.request.urlopen(url)

        if response.getcode() != 200:
            return None

        return response.read()

4、網頁解析器

import re
import urllib

from bs4 import BeautifulSoup


class html_parser(object):

    # 從HTML頁面中解析出新的url和頁面內容
    def parse(self, url, html_content):
        if url is None or html_content is None:
            return

        soup = BeautifulSoup(html_content, 'html.parser', from_encoding='utf-8')
        new_urls = self._get_new_urls(url, soup)
        new_data = self._get_new_data(url, soup)
        return new_urls, new_data

    def _get_new_urls(self, url, soup):
        new_urls = set()

        # # /item/****
        # links = soup.find_all('a', href=re.compiler(r"/item/\S+"))
        # /view/123.htm
        links = soup.find_all('a', href=re.compile(r'/item/(.*)'))
        for link in links:
            new_url = link['href']
            new_full_url = urllib.parse.urljoin(url, new_url)
            new_urls.add(new_full_url)
        return new_urls

    # 解析網頁的標題標籤title和簡介標籤summary
    def _get_new_data(self, url, soup):
        res_data= {}

        res_data['url'] = url

        # 標題標籤
        # <dd  class ="lemmaWgt-lemmaTitle-title" >
        # < h1 > Python < / h1 >
        title_node = soup.find('dd', class_="lemmaWgt-lemmaTitle-title").find("h1")
        res_data['title'] = title_node.get_text()

        # <div class="lemma-summary" label-module="lemmaSummary">
        summary_node = soup.find('div', class_="lemma-summary")
        res_data['summary'] = summary_node.get_text()

        return res_data

5、輸出到檔案

class html_output(object):

    def __init__(self):
        self.datas = []

    def collect_data(self, data):
        if data is None:
            return
        self.datas.append(data)

    def output_html(self):
        fout = open('output.html', 'w', encoding='utf-8')

        fout.write("<html>")
        fout.write("<body>")
        fout.write("<table>")
        for data in self.datas:
            fout.write("<tr>")
            fout.write("<td>%s</td>" % data['url'])
            fout.write("<td>%s</td>" % data['title'])
            fout.write("<td>%s</td>" % data['summary'])
            fout.write("</tr>")
        fout.write("</table>")
        fout.write("</body>")
        fout.write("</html>")
        fout.close()

Git程式碼

Python3爬蟲之四簡單爬蟲架構【爬取百度百科python詞條網頁】

前面介紹了Python寫簡單的爬蟲程式，這裡參考慕課網Python開發簡單爬蟲總結一下爬蟲的架構。讓我們的爬蟲程式模組劃分更加明確，程式碼具有更佳的邏輯性、可讀性。因此，我們可以將整個

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

class 實例實例代碼編碼 mat 分享 aik logs title 一、開發爬蟲的步驟 1.確定目標抓取策略：打開目標頁面，通過右鍵審查元素確定網頁的url格式、數據格式、和網頁編碼形式。 ①先看url的格式, F12觀察一下鏈接的形式;② 再看目標文本信息的

最最簡單的python爬蟲教程--爬取百度百科案例

python爬蟲；人工智能from bs4 import BeautifulSoupfrom urllib.request import urlopenimport reimport randombase_url = "https://baike.baidu.com"#導入相關的包 his

python3 爬蟲學習-根據關鍵詞爬取百度百科內容

小白編了好久才寫出來，記錄一下免得之後再用的時候都忘了還得重新學~ 學習爬蟲最開始是學習了慕課上的python課程，然後學習了慕課和網易雲上的爬蟲教程。這兩個自己去查一下就好了~ 開始還比較費勁，畢竟熟悉需要時間麼，而且python也不太熟悉。關於python版本：我一開

Python爬蟲為何可以這麽叼？爬取百度雲盤資源！並保存到自己雲盤

源碼下載表達 har .cn bdb 裏的 image AC 賬號登錄點擊它，再點擊右邊的【Cookies】就可以看到請求頭裏的 cookie 情況。 cookie分析除了上面說到的兩個 cookie ，其他的請求頭參數可以參照手動轉存

Python開發爬蟲爬取百度百科詞條資訊(原始碼下載)

下面使用Python開發一個網頁爬蟲，爬取百度百科詞條資訊，整個程式涉及到url管理器，html下載器，html解析器，html顯示以及排程程式：程式結構： spider_main.py：爬蟲的排

爬蟲之刃----趕集網招聘類爬取案例詳解(系列四)

前言本篇承襲之前的系列文章，開始動真格。以趕集網招聘類資訊爬取為例，詳細解說爬蟲程式構建過程。準備工作：閱讀之前的系列一、系列二、系列三，有一定遞進關係登陸趕集網，瞭解下“地形” OK，let’s go！構建URL庫

Python3爬蟲之爬取百度高清圖片

#!/usr/bin/env python # -*- coding:utf-8 -*- # Author: OFZFZS # Datetime:2018/3/23 11:00 # Description: 百度圖片爬取這裡只做了簡單處理,注意百度圖片返回的資料是aja

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

Python爬蟲之利用正則表達式爬取內涵吧

file res start cnblogs all save nts quest ide 首先，我們來看一下，爬蟲前基本的知識點概括一. match()方法：這個方法會從字符串的開頭去匹配（也可以指定開始的位置），如果在開始沒有找到，立即返回None，匹配到一個結果

Python3實現QQ機器人自動爬取百度文庫的搜索結果並發送給好友（主要是爬蟲）

OS __main__ end aid 機器 https code __name__ gbk 一、效果如下：二、運行環境： win10系統；python3；PyCharm 三、QQ機器人用的是qqbot模塊用pip安裝命令是： pip

Python3爬蟲-selenium爬取百度文庫

這是筆者爬取的第一個動態載入的網頁，使用的IDE是Pycharm，選擇的是百度文庫的一篇16年六級卷子的文件。若直接使用requests模組去得到網頁原始碼，會發現所得非所見，不能獲取到文件中的內容。看了網上數篇博文的思路，最後還是嘗試了使用selenium

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

說明： Python版本：Python IDE：PyCharm chrome版本：我的版本63 chromedriver.exe：因為是模擬瀏覽器訪問，chrome需要再下載一個驅動，具體方式在我的上一篇部落格，內容很詳細。傳送門：Python網路爬蟲（

python爬蟲系列之爬取百度文庫（一）

一、什麼是selenium 在爬取百度文庫的過程中，我們需要使用到一個工具selenium（瀏覽器自動測試框架），selenium是一個用於web應用程式測試的工具，它可以測試直接執行在瀏覽器中，就像我們平時用瀏覽器上網一樣，支援IE(7，8，9，10，11),firefo

網路爬蟲簡單的實現爬取百度貼吧圖片

我們要爬取的網站是https://tieba.baidu.com/p/3797994694 首先爬取第一頁的圖片，使用python3自帶庫urllib，詳細的程式碼如下：接下來爬去多頁的圖片，這裡我們選取五頁的圖片，這裡我們採用requests，beautifuls

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python爬蟲 - 爬取百度html代碼前200行

http src mage bsp bubuko str 百度爬蟲圖片 Python爬蟲 - 爬取百度html代碼前200行 - 改進版, 增加了對字符串的.strip()處理 Python爬蟲 - 爬取百度html代碼前200行

pythonp爬蟲爬取百度音樂

www code focus rfi aid xtra trac cookie bds #coding=utf-8 import requests import re import time from bs4 import BeautifulSoup

完整的爬蟲程序爬取百度貼吧的圖片

列表文檔 for tieba http ... 自增 num 圖片 #!/usr/bin/env python#-- coding:utf-8 -- import osimport urllibimport urllib2from lxml import etree cl

Python3爬蟲之四簡單爬蟲架構【爬取百度百科python詞條網頁】

相關推薦