Python爬蟲學習（二）---- 完整的爬蟲體系

阿新 • • 發佈：2019-01-31

完整的爬蟲體系

上節已經對爬蟲有了簡單的瞭解和實踐，接下來我通過慕課網的途徑學習到了一個相對完整的框架。為了記錄，特將此經除錯體系置於此，互相學習。

平臺

MacOS 10.13.3
PyCharm 2016
Python3.6

主函式

Python 中的主函式與C 或者 java 都相類似，主要的作用就是形成一個總體概括性的大範圍，讓程式設計邏輯性更加清晰。

主函式如下，難點我已註釋，不懂請追問，我加以修改。
相關實現函式請關注爬蟲後續文章或訪問我的Github：https://github.com/Spacider/Spider

#!/usr/bin/env python3
# -*- coding: UTF-8 -*- 

from Baike_Spaider import html_downloader
from Baike_Spaider import html_outputer
from Baike_Spaider import html_paraser
from Baike_Spaider import url_manager

__author__ = 'Gary'


# 爬蟲主函式

class SpiderMain(object):
    def __init__(self):
        # url管理器
        self.urls = url_manager.UrlManager()
        # 下載器 

        self.downloader = html_downloader.HtmlDownloader()
        # 解析器
        self.paraser = html_paraser.HtmlParaser()
        # 輸出器
        self.outputer = html_outputer.HtmlOutputer()

    def craw(self, root_url):
        count = 1
        # 新增入口url
        self.urls.add_new_url(root_url)
        # 如果有新的url地址 

        while self.urls.has_new_url():
            try:
                # 從網頁url管理器取出
                new_url = self.urls.get_new_url()
                # 輸入解析的是第幾個url
                print('craw %d : %s' % (count, new_url))
                # 下載對應的頁面
                html_cont = self.downloader.download(new_url)
                # 執行介面的解析，得到新的url資料
                new_urls, new_data = self.paraser.parse(new_url, html_cont)
                # 將新的url補充進url資料
                self.urls.add_new_urls(new_urls)
                # 收集新的資料
                self.outputer.collect_data(new_data)

                if count >= 200:
                    break
                count +=1

            except:
               print('craw failed')

        # 輸出資料
        self.outputer.output_html()


if __name__ == '__main__':
    # 輸入待抓取url
    root_url = 'https://baike.baidu.com/item/Python'
    # 創造一個Spider
    obj_spider = SpiderMain()
    obj_spider.craw(root_url)

Python爬蟲學習（二）---- 完整的爬蟲體系

完整的爬蟲體系上節已經對爬蟲有了簡單的瞭解和實踐，接下來我通過慕課網的途徑學習到了一個相對完整的框架。為了記錄，特將此經除錯體系置於此，互相學習。平臺 MacOS 10.13.3 PyCharm 2016 Python3.6 主函式 Pyt

Python Django 學習（二）【Django 模型】

注：由於自己排版確實很難看，本文開始使用markdown編輯，希望有所改善官方定義 A model is the single, definitive source of information about your data. It contains the essential fields and

Python 3 學習（二）—— 常用內建函式（網上收集整理）

文章目錄輸入輸出數學運算型別轉換序列操作函式操作 Python 3 所有內建函式輸入輸出 print(*objects, sep=' ', end='\n', file=sys.stdout,

python基礎學習（二）

print(abs(-5)) print(max(1,2)) print(max(1,2,3,4,5)) print(int('123')) print(int(12.34)) print(float('12.34')) print(str(1.23)) pri

Python機器學習（二） Logistic迴歸建模分類例項——信用卡欺詐監測（上）

Logistic

Python的學習（二）----單引號、雙引號和三雙引號的區別

Python單引號、雙引號和三雙引號的區別 python字串通常有單引號（'...'）、雙引號（"..."）、三引號（"""..."""）或（'''...'''）包圍，三引號包含的字串可由多行組成，一般可表示大段的敘述性字串。在使用時基本沒有差別，但雙引號和三引號（"""

python如何學習（二）

map 逗號 NPU bin 制表符項目規範不可替換計算機技術最近開始整理python的資料，博主建立了一個qq群，希望給大家提供一個交流的同平臺 78486745 。一、編程開發規範作為一門開發語言，python自然也有自己的編程規範，以下是特有且必須遵

Python爬蟲包 BeautifulSoup 學習（二）異常處理

面對網路不穩定，頁面更新等問題，很可能出現程式異常的問題，所以我們要對程式進行一些異常處理。大家可能覺得處理異常是一個比較麻煩的活，但在面對複雜網頁和任務的時候，無疑成為一個很好的程式碼習慣。網頁‘404’、‘500’等問題 try:

爬蟲庫之BeautifulSoup學習（二）

不必要 baidu html left 官方 blank 正則文本處理比較 BeautifulSoup官方介紹文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 四大對象種

Python爬蟲學習（一）

code time response utf path urllib quest ext .com Python訪問網頁主要使用包urllib 打開網頁使用 urllib.request.urlopen(url, data=None, [timeout, ]*, cafi

Python爬蟲學習（1）

數據 bin des fin load 寫入 all pytho urlopen 接觸python不久，也在慕課網學習了一些python相關基礎，對於爬蟲初步認為是依靠一系列正則獲取目標內容數據於是參照著慕課網上的教學視頻，完成了我的第一個python爬蟲，雞凍 >

Python爬蟲學習（3）

collect nbsp pri div time urlparse links ews 是否在慕課網學習並創建了一個簡單的爬蟲包，爬取百度百科相關詞條信息程序中會用到第三方解析包（BeautifulSoup4），Windows環境下安裝命令：pip install B

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

Python爬蟲（二）：爬蟲獲取資料儲存到檔案

接上一篇文章：Python爬蟲（一）：編寫簡單爬蟲之新手入門前言：上一篇文章，我爬取到了豆瓣官網的頁面程式碼，我在想怎樣讓爬取到的頁面顯示出來呀，爬到的資料是html頁面程式碼，不如將爬取到的程式碼儲存到一個檔案中，檔案命名為html格式，那直接開啟這個檔案就可以在瀏覽器上看到爬取資料的

python網路爬蟲（web spider）系統化整理總結（二）：爬蟲python程式碼示例(兩種響應格式：json和html)

上一篇部落格（入門知識篇），對爬蟲有了一個基本的瞭解，但是具體怎麼實現一個爬蟲程式呢？一般情況下，我們在瀏覽器獲取資訊，是

Python爬蟲開發（二）：整站爬蟲與Web挖掘

0×00 介紹在網際網路這個複雜的環境中，搜尋引擎本身的爬蟲，出於個人目的的爬蟲，商業爬蟲肆意橫行，肆意掠奪網上的或者公共或者私人的資源。顯然資料的收集並不是為所欲為，有一些協議或者原則還是需要每一個人注意。本文主要介紹關於爬蟲的一些理論和約定協議，然後相對完整完成一個爬蟲的基本功能。本

python爬蟲入門（二）Opener和Requests

Handler和Opener Handler處理器和自定義Opener opener是urllib2.OpenerDirector的例項，我們之前一直在使用urlopen，它是一個特殊的opener(也就是我們構建好的)。但是urlopen()方法不支援代理、cookie等其他的HTTP/GTTPS高

python爬蟲學習（2）用tesserocr識別影象驗證碼

在學習爬蟲的過程中難免會遇到驗證碼問題，作為純自動化的爬蟲是不可能手動去輸入驗證碼的。那麼我們就要學會怎麼去識別它。而驗證碼也分很多種類，主要的幾種：（1）影象驗證碼：這是最簡單的一種，也很常見。就比如CSDN登入幾次失敗之後就會出驗證碼。（2）滑塊驗證碼

【Python】打響2019年第二炮-Python爬蟲入門（二）

打響2019第二炮-Python爬蟲入門在2019年第一炮文章中獲取到了京東商城某一臺電腦的列表資訊，並儲存到CSV能夠更方便的檢視如下：本章內容主要解決，如何多頁獲取手機&電腦資料，獲取評價以及好評率等資訊，實現效果如下：如何獲取評論資訊？

python爬蟲從入門到放棄（二）之爬蟲的原理

在上文中我們說了：爬蟲就是請求網站並提取資料的自動化程式。其中請求，提取，自動化是爬蟲的關鍵！下面我們分析爬蟲的基本流程爬蟲的基本流程發起請求通過HTTP庫向目標站點發起請求，也就是傳送一個Request，請求可以包含額外的header等資訊，等待伺服器響應獲取響應內容如果伺服器能正常響應，會得到一個Resp

Python爬蟲學習（二）---- 完整的爬蟲體系

完整的爬蟲體系

平臺

主函式

相關推薦