python網路爬蟲（9）構建基礎爬蟲思路

目的意義

基礎爬蟲分5個模組，使用多個檔案相互配合，實現一個相對完善的資料爬取方案，便於以後更完善的爬蟲做準備。

這裡目的是爬取200條百度百科資訊，並生成一個html檔案，儲存爬取的站點，詞條，解釋。

本文思路來源書籍。其程式碼部分來源書籍。https://book.douban.com/subject/27061630/

功能模組

主檔案：爬蟲排程器，通過呼叫其他檔案中的方法，完成最終功能實現。

其他檔案：URL管理器，HTML下載器，HTML解析器，資料儲存器。

設計思路

定義SpiderMan類作為爬蟲排程器。輸入根URL開始爬取資料然後爬取結束。

在爬取過程中，需要獲取網頁，和解析網頁。

解析網頁需要HTML解析器，獲取網頁需要HTML下載器。

解析網頁需要解析的資料有：URL，TITLE，CONTEXT等。則需要URL管理器和資料儲存器。

主檔案設計

主檔案新增根URL，然後提取該URL，下載該URL內容。

根據內容，呼叫解析器：

　　　　　　解析出該URL中的新URL，存入URL管理器；

　　　　　　解析出該URL中的標題，文字等資訊，存入資料儲存器。

完成後開始下一次。這時URL管理器多出了新的URL，提取出新的URL，下載，解析，不斷重複即可。

重複結束以提取出的URL數量超過200則結束。

程式碼如下：

from BaseSpider.DataOutput import DataOutput
from BaseSpider.HtmlDownloader import HtmlDownloader
from BaseSpider.HtmlParser import HtmlParser
from BaseSpider.UrlManager import UrlManager
class SpiderMan():
    def __init__(self):
        self.manager=UrlManager()
        self.downloader=HtmlDownloader()
        self.parser=HtmlParser()
        self.output=DataOutput()
        
    def crawl(self,root_url):
        self.manager.add_new_url(root_url)
        while(self.manager.has_new_url() and self.manager.old_url_size()<200):
            new_url=self.manager.get_new_url()
            text=self.downloader.download(new_url)
            if text is None:
                print('None text')
                break
            new_urls,data=self.parser.parser(new_url,text)
            self.manager.add_new_urls(new_urls)
            self.output.store_data(data)
            print(self.manager.old_url_size())       
        self.output.output_html()
    
if __name__ == "__main__":
    spider_man=SpiderMan()
    spider_man.crawl("https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fr=aladdin")
    print('finish')

作為最初的設計，應該允許異常丟擲，便於檢視程式終止的原因，然後排查錯誤。

HTML下載器設計

下載網頁，返回文字。即可。

import requests
import chardet
class HtmlDownloader(object):
    def download(self,url):
        if url is None:
            return None
        user_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'
        headers={'User-Agent':user_agent}
        r=requests.get(url,headers=headers)
        if r.status_code is 200:
            r.encoding=chardet.detect(r.content)['encoding']
            return r.text
        return None

HTML解析器設計

HTML解析器將下載的文字進行解析，需要解析出的資料有：頁面的新URL，頁面的新資料文字。

建立相應的解析器，需要開啟原始碼對比，然後進行使用原始碼分析，使用BeautifulSoup獲取所需資訊。

為了便於主函式呼叫或者其他原因，將所有資料通過parser實現返回，其parser分別呼叫獲取URL和獲取資料文字的資訊。

為了處理一些不同網頁可能抓取的意外情況導致程式終止，添加了一些判斷。

import re
from urllib import parse
from bs4 import BeautifulSoup
class HtmlParser(object):
    def parser(self,page_url,html_cont):
        if page_url is None or html_cont is None:
            return
        soup=BeautifulSoup(html_cont,'lxml')
        new_urls=self.getNewUrls(page_url,soup)
        new_data=self.getNewData(page_url,soup)
        return new_urls,new_data
    
    def getNewUrls(self,page_url,soup):
        new_urls=set()
        links=soup.find_all('a',href=re.compile(r'/item/.*'))
        for link in links:
            new_url=link['href']
            new_full_url=parse.urljoin(page_url,new_url)
            new_urls.add(new_full_url)
        return new_urls
    
    def getNewData(self,page_url,soup):
        data={}
        data['url']=page_url
        title=soup.find('dd',class_="basicInfo-item value")
        if title is not None:
            data['title']=title.string
            summary=soup.find('meta',attrs={"name":"description"})
            data['summary']=summary['content']
            return data
        else:
            title=soup.find('meta',attrs={"name":"keywords"})
            if title is not None:
                data['title']=title['content']
                summary=soup.find('meta',attrs={"name":"description"})
                data['summary']=summary['content']
                return data
            else:
                data['title']="ERROR!"
                data['summary']="Please check the url for more information"
                data['url']=page_url
                return data

URL管理器設計

為了避免重複的URL，使用python的set，建立集合初始化。參閱：https://www.runoob.com/python3/python3-set.html

使用old_urls儲存已經訪問過的網址，使用new_urls存入將要提取的網址。

然後寫好has_new_url等方法，輔助主程式呼叫。當得到新的URL們時，主程式呼叫函式將他們存入。

而主程式需要的其他URL管理方案，如提取，數量判定等，也在這裡實現。

class UrlManager():
    def __init__(self):
        self.old_urls=set()
        self.new_urls=set()
        pass
    
    def has_new_url(self):
        return self.new_url_size()!=0
    
    def new_url_size(self):
        return len(self.new_urls)
    
    def old_url_size(self):
        return len(self.old_urls)
    
    def get_new_url(self):
        new_url=self.new_urls.pop()
        self.old_urls.add(new_url)
        return new_url
    
    def add_new_url(self,url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.old_urls:
            self.new_urls.add(url)
        pass
    
    def add_new_urls(self,urls):
        if urls is None or len(urls) == 0:
            return
        
        for url in urls:
            self.add_new_url(url)
        pass

資料儲存器設計

通過HTML解析器獲取的資料，通過資料儲存器進行儲存。

而最終將資料從記憶體寫入到本地磁碟，也在該檔案實現。

為了除錯美觀，建議是先爬取一兩個資料做好測試，寫好table的寬度設定，加入style='word-break:break-all;word-wrap:break-word;'引數。參閱：https://zhidao.baidu.com/question/1385859725784504260.html

import codecs
class DataOutput(object):
    def __init__(self):
        self.datas=[]
    
    def store_data(self,data):
        if data is None:
            return
        self.datas.append(data)
    
    def output_html(self):
        fout=codecs.open('baike.html', 'w', encoding='utf-8')
        fout.write("<html>")
        fout.write("<head><meta charset='urf-8'></head>")
        fout.write("<body>")
        fout.write("<table border='1' width=1800  style='word-break:break-all;word-wrap:break-word;'>")
        fout.write("<tr>")
        fout.write("<td width='300'>URL</td>")
        fout.write("<td width='100'>標題</td>")
        fout.write("<td width='1200'>釋義</td>")
        fout.write("</tr>")
        for data in self.datas:
            fout.write("<tr>")
            fout.write("<td><a href=%s>%s</a></td>"%(data['url'],data['url']))
            fout.write("<td>%s</td>"%data['title'])
            fout.write("<td>%s</td>"%data['summary'])
            fout.write("</tr>")
        fout.write("</table>")  
        fout.write("</body>")      
        fout.write("</html>")
        fout.close()

最終效果：

當然還有一些資料沒有處理好。

python網路爬蟲（9）構建基礎爬蟲思路

目的意義基礎爬蟲分5個模組，使用多個檔案相互配合，實現一個相對完善的資料爬取方案，便於以後更完善的爬蟲做準備。這裡目的是爬取200條百度百科資訊，並生成一個html檔案，儲存爬取的站點，詞條，解釋。本文思路來源書籍。其程式碼部分來源書籍。https://book.douban.com/subjec

小白學 Python 爬蟲（9）：爬蟲基礎

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

每日一python（9）：基礎資料結構 ---- 元組

Tuple是Python內建的另一種資料型別，元組。Tuple也是一種有序的集合，tuple和list非常類似，但是tuple一旦初始化就不能修改。比如：同樣是列出同學的名字，如下： >>> classmates = ('Bob', 'Tract', 'Jac

小白學 Python（9）：基礎資料結構（列表）（上）

人生苦短，我選Python 前文傳送門小白學 Python（1）：開篇小白學 Python（2）：基礎資料型別（上）小白學 Python（3）：基礎資料型別（下）小白學 Python（4）：變數基礎操作小白學 Python（5）：基礎運算子（上）小白學 Python（6）：基礎運算子（下）

Python爬蟲（二）網絡爬蟲的尺寸與約束

.cn 哪些 com 尺寸網頁 inf robot robots 搜索 Infi-chu: http://www.cnblogs.com/Infi-chu/ 一、網絡爬蟲的尺寸： 1.小規模，數據量小，爬取速度不敏感，Requests庫，爬取網頁 2.中規模，數據

python之路（9）反射、包裝類、動態模組匯入

目錄反射利用繼承二次包裝標準類利用授權二次包裝標準類動態模組匯入反射 python提供自省的四個方法： hasattr(object，name) 判斷object中有沒有有個name字串對應對應的方法和屬性 class de

Python學習筆記（三）[函式基礎]

概念定義宣告 a = 1 if a == 1: def func(): print('a == 1') else: def func(): print('a != 1') 傳參 # 預設

Python 學習筆記（一）[語法基礎]

資料型別數字整數（int，long）：記憶體決定長度，不支援自增（++）和自減（–）浮點數（float）：帶小數點的數，無窮小數會做精度處理布林（bool）：非空（None）非 0 → true，0 或空（None） → false 複數（com

吳裕雄實戰PYTHON編程（9）

numpy con users num wim lena ces resize tor import cv2 cv2.namedWindow("ShowImage1")cv2.namedWindow("ShowImage2")image1 = cv2.imread("F:\

手把手教你寫網路爬蟲（2）：迷你爬蟲架構

語言&環境有需要Python學習資料的小夥伴嗎?小編整理【一套Python資料、原始碼和PDF】，感興趣者可以加學習群：548377875或者加小編微信：【mmp9972】反正閒著也是閒著呢，不如學點東西啦~~ 語言：帶足彈藥，繼續用Python開路！ t

Python網路程式設計（一）

一、網路基礎在學習網路程式設計前，要對網路通訊的五層協議有所瞭解，那什麼是協議呢，協議就是各方規定遵守的一種標準。網路通訊就像寄信件，是資訊與資料的交換，而在生活中我們寄信件，信件也不是從我們手裡瞬間到收件人手裡，每一次信件通訊，都會經歷這樣幾個固定流程：寫信、裝信封、投到郵箱、郵局取件、運輸到目的地

Python學習日誌（9）

題目：暫停一秒輸出。思考：無頭緒，學習time import time l = [1,3,6,9,22] for i in range(len(l)): print(l[i],end=’\t’) time.sleep(1)

[ python ] 網路程式設計（1）

在本地電腦上有兩個python檔案 regist.py 、login.py 一個註冊，一個登入。這兩個python一個是寫使用者資訊，一個是讀使用者資訊，要怎麼做呢？通過之前的知識，我們可以通過 regist.py 序列化一個數據並持久儲存到磁碟上，然後 login.py 在取讀取這個檔案就行。 &

每天五個java相關面試題（9）--java基礎詳解篇1

接下來會系統的總結java基礎，然後過兩天會開始從新開始複習前端並更新和總結一些關於前端的基礎知識和麵試題，嗯嗯我是一個想走前端的後端java工程師啊哈哈。馬上開學大四了，lz我要加油啦~ 接下來的面試題會學習我們班小夥伴的好學習方法，一個個刨根問底了，理清楚

使用angularjs1.x構建前臺開發框架（一）——構建基礎架構

在web應用開發中，前臺模組正逐漸變得越來越厚重（這也是大勢所趨，瀏覽器的功能和效能都在迅速提升，一部分本來需要後臺支援的業務邏輯完全可以交給前臺來完成），進而演變出了前臺開發框架，而angularjs就是其中之一。但通常angularjs的學習往往侷限於資料雙向繫結、路由

Python音訊處理（一）音訊基礎知識

1.聲音音訊基礎知識（1）聲音是由震動產生，表現為波的形式。波有頻率，振幅等引數。對於聲波而言：頻率越大，音調越高，反之越低。振幅越大，聲音越大，反之越小。（2）取樣率，幀率：波是連續（無窮）的，計算機儲存是離散（有限）的。要想用有限儲存無限，幾乎不可能。因此，要每隔一段時間對波進行一

pyhton爬蟲（9）——使用XPath提取網頁資訊

1. XPath基礎 1.1 什麼是XPath？ XPath 是一門在 XML 文件中查詢資訊(節點)的語言。XPath 可用來在 XML 文件中對元素和屬性進行遍歷。 1.2 節點節點是XPath提取XML文件資訊的最小單位，一共有7種：（1）元

Python 學習筆記（一）：基礎與入門

注：因為先前學習過C/C#，Java。故學習Python時只會記錄與此前幾種語言不同之處 Python是一種解釋型、面向物件、動態資料型別的高階程式設計語言。 Python簡介 Python 是一個高層次的結合瞭解釋性、編譯性、互動性和麵向物件

python學習筆記（三）- numpy基礎：array及matrix詳解

Numpy中的矩陣和陣列 numpy包含兩種基本的資料型別：陣列（array）和矩陣（matrix）。無論是陣列，還是矩陣，都由同種元素組成。下面是測試程式： # coding:utf-8 import numpy as np # print(dir(np))

Python學習筆記（一）：基礎語法、變數型別、運算子（快速入門篇）

Head First Python、Python基礎教程下劃線的特殊意義以下劃線開頭的識別符號是有特殊意義的。以單下劃線開頭（_foo）的代表不能直接訪問的類屬性，需通過類提供的介面進行訪問，不能用”from xxx import *”而匯入

python網路爬蟲（9）構建基礎爬蟲思路

目的意義

功能模組

設計思路

主檔案設計

HTML下載器設計

HTML解析器設計

URL管理器設計

資料儲存器設計

相關推薦