爬蟲多執行緒

阿新 • • 發佈：2019-01-03

定義多執行緒類，爬蟲類爬取 m.sohu.com的內容中的帶有href屬性的a連結地址

import logging
from enum import unique, Enum
from queue import Queue
from random import random
from threading import current_thread, Thread
from time import sleep
from urllib.parse import urlparse

import requests
from bs4 import BeautifulSoup

visited_urls = set()


@unique 

class SpiderStatus(Enum):
    """
    定義一個爬蟲的狀態類， unique意思是類裡面定義的值是不能重複的， 繼承Enum類這是一個列舉類
    """
    IDEL = 0
    WORKING = 1


def decode_page(page_bytes, charsets=('utf-8',)):
    """
    定義一個專門用來解碼的函式， 傳入的charsets預設有多個值
    只寫了一個預設值， 元祖裡面傳入引數，多個值不寫完後面加逗號
    :param page_bytes:  page_bytes是傳入的未解碼的頁面，
    :param charsers: 編碼種類
    :return: 返回解碼後的頁面
    """ 

    page_html = None
    for charset in charsets:
        try:
            # 解碼成功 程式才會執行 break
            page_html = page_bytes.decode(charset)
            break
        except UnicodeDecodeError as e:
            pass
            logging.error('Decode:', e)

    return page_html


class Retry(object) 
:
    """
    包裝器
    """

    def __init__(self, *, retry_times=3, wait_secs=5, error=(Exception, )):
        """
        給物件定義屬性
        :param retry_times: 爬蟲當爬取內容為空或者失敗時 嘗試爬取的次數
        :param wait_secs:   爬取  兩次相隔的時間
        :param error:  錯誤 傳入的是個元祖意思是可以傳入多個， 不過給了一個預設
        """
        self.retry_times = retry_times
        self.wait_secs = wait_secs
        self.error = error

    def __call__(self, fn):
        """
        call的作用是把包裝器的物件變成函式  裝飾器都是呼叫的函式
        :param fn:  無論什麼函式 都用fn代表
        :return: 返回包裝器
        """

        def wrapper(*args, **kwargs):
            """
            函式嘗試的次數 當 成功返回函式自己程式就不往下執行了，如果 沒有成功接著迴圈，
            有異常時進行異常處理 當for迴圈結束時 還沒有返回fn 就返回None

            返回wrapper 是返回給call函式的
            包裝器好像就是在操作 fn 函式 傳入一些引數用來限制 fn
            """
            for _ in range(self.retry_times):
                try:
                    return fn(*args, **kwargs)
                except self.error as e:
                    logging.error(e)
                    logging.info('[Retry]')
                    sleep((random()+1)* self.wait_secs)
            return None
        return wrapper


class Spider(object):
    """
    爬蟲類
    """

    def __init__(self, task_queue):
        """

        :param task_queue: 給爬蟲傳入任務佇列，爬蟲是要幹活的
        """
        self.status = SpiderStatus.IDEL

    # 這是一個裝飾器 裡面是可以傳入引數的 預設是三次 間隔時間5 可以傳入retry_times=5 wait_secs=10 給物件的屬性傳入引數
    # 不是直接傳入值就行了嘛， 為什麼還要加屬性的名字呢， 是因為 * 後面的為命名引數 意思是 * 號後面的引數 傳入值時需要加上引數名字
    @Retry()
    def fetch(self, current_url, *, charsets=('utf-8', ), user_agent=None, proxies=None):
        """
        爬取頁面的方法
        :param current_url: url地址
        :param charsets: 採用的編解碼方式
        :param user_agent: 使用者代理，冒充有名的爬蟲爬取網站， 網站一般會禁止不知名的爬蟲爬取
        :param proxies:代理
        :return: 返回爬取的頁面
        """
        # 列印 current_url  利用current_thread函式獲取當前執行緒的名字
        logging.info('[Fetch]:' + current_url)
        thread_name = current_thread().name

        # 打印出程序的名字 和url f是格式化的意思，代替了 %s %d形式
        print(f'[{thread_name}]:{current_url}')
        # 冒充使用者
        headers = {'user-agent': user_agent}\
            if user_agent else {}
        # 獲取頁面
        resp = requests.get(current_url, headers=headers,
                            proxies=proxies)
        # 解碼並返回頁面  呼叫解碼函式
        return decode_page(resp.content, charsets) if resp.status_code == 200 else None


    def parse(self, html_page, *, domain='m.sohu.com'):
        """
        解析頁面
        :param html_page: 傳入要解析的頁面
        :param domain: 傳入域名
        :return: 返回從頁面中提取的url
        """
        # 解析頁面 soup是一個完整的html頁面
        soup = BeautifulSoup(html_page, 'lxml')
        url_links = []
        # 取出頁面中 帶有href屬性的a標籤
        for a_tag in soup.body.select('a[href]'):
            # 使用urlparse函式解析url地址， 該函式是分段解析
            # 要解析的原因是url可能不全
            parser= urlparse(a_tag.attrs['href'])
            # 標題的文字協議 可能url中沒有則拿取可能為空  空了把後面的 http 文字協議賦給scheme
            scheme = parser.scheme or 'http'
            # 域名  parser.netloc拿取 域名 www.baidu.com
            netloc = parser.netloc or 'domain'
            # 拿取的url的文字協議中有javascript的， 這樣的我不要
            # 想要爬的是sohu 所以先讓 netloc等於預設域名souhu的 這是第一次拿
            if scheme != 'javascript' and netloc == domain:
                # 拿取url中的絕對路徑部分， 像/user/user/型別
                path = parser.path
                # parser.query 取到的是url的？後面傳入的引數
                query = '?' + parser.query if parser.query else ''
                # 格式化url, 用上面取到的分段內容拼接成一個完整的url
                full_url = f'{scheme}://{netloc}{path}{query}'
                # 如果 url沒有訪問過
                if full_url not in visited_urls:
                    # 就把它放到列表中
                    url_links.append(full_url)
        # 返回解析出來的完整的沒有訪問過的url
        return url_links

    def extract(self, html_page):
        """
        從頁面中摘取內容
        :param html_page: 頁面
        :return:
        """
        pass

    def store(self, data_dict):
        """
        儲存資料
        :param data_dict:
        :return:
        """
        pass

class SpiderThread(Thread):
    """
    定義一個多執行緒類  用來啟動爬蟲 繼承了Thread類，自帶的
    該類就是一個執行緒類
    單個單個執行緒的寫法：
        Thread(target=foo, agrs=( , )).start()
        foo是目標函式，執行緒要啟動的函式， args 是給目標函式傳入的引數
    這是一個執行緒類，呼叫該類時自動呼叫run函式， run函式中肯定要使用蜘蛛實現爬取頁面
    解析頁面 把解析出來的東西 做下處理， 一個執行緒類裡面定義的就是一個執行緒， 一個蜘蛛
    一個蜘蛛類裡面定義的就是一個蜘蛛該乾的事情， 想要啟動多執行緒 多個蜘蛛 就在main函式中
    通過for迴圈 實現 ， 現在呼叫執行緒類就執行run函式，而run函式中，使用蜘蛛爬去和解析了頁面
    蜘蛛是傳進來的，所以定義一個蜘蛛類， 蜘蛛的行為，是在類中定義好的， 該蜘蛛的某個行為幹某件事情
    直接利用蜘蛛點一下就可以了， 不得不讚嘆爬蟲太偉大了， 教我們一個人就幹一件事情，一個人就做好
    自己眼前的事情
    執行緒類的區別是， 你呼叫一次等於啟一個執行緒，大家是同時執行的 只不過共用計算機記憶體， 公用資源而已
    而普通類，你呼叫一次一次，他們是排隊等候的，當上一個程式執行完成，才會執行下一個
    執行緒太偉大了
    多程序 運作方式，一樣， 只不過是不共用資源，啟一個自動複製一個資源，佔用一份記憶體
    但是效率更高

    一個類定義的就是一個物件，一個方法，一個物件的屬性，一個物件的行為
    """

    def __init__(self, spider, task_queue):
        """
        只是引數而已， 傳入時是靈活的
        daemon=True 是把執行緒設為守護執行緒， 當主執行緒掛了，守護執行緒也掛
        :param spider: 傳入爬蟲函式
        :param task_queue: 任務佇列  給爬蟲函式的引數
        """
        super().__init__(daemon=True)
        self.spider = spider
        self.task_queue = task_queue

    def run(self):
        """
        這是個回撥函式 前面有 'O+向上的箭頭' 代表實回撥函式 Thread是有這個函式的 是方法的重寫
        當利用這個類建立物件時，會自動呼叫該函式
        :return:
        """
        # 這是一個死迴圈， 啟動一個執行緒 時 執行緒 不死 一直執行 所以應該可以設定一個執行緒存活的時間
        while True:
            # 從佇列中取出url
            current_url = self.task_queue.get()
            # 把url新增到訪問過的url的集合中 把他放進訪問過的url集合的
            # 原因是 放置其他程序爬取， 10個程序是公用佇列的， 不過有
            # 上面的判斷，爬取過了，就不會再爬了
            visited_urls.add(current_url)
            # 標記爬蟲為工作狀態
            self.spider.status = SpiderStatus.WORKING
            # 爬蟲 爬取頁面  這個spider是上面傳入的spider,這只是個引數， 當真正的爬蟲傳進來時所有的spider引數都會自動換成真正的引數
            # 相當與數學中的 引數 X X可以代表任意數
            html_page = self.spider.fetch(current_url)
            # 如果頁面存在 不是沒有 或者 獲取到的頁面是一個空字串
            if html_page not in [None, '']:
                # 呼叫爬蟲下的 解析函式 解析頁面 解析函式解析出來的是url_links
                url_links = self.spider.parse(html_page)
                # 把url放到佇列中
                for url_link in url_links:
                    self.task_queue.put(url_link)
            # 爬完一次之後把爬蟲狀態 標記為空閒狀態
            self.spider.status = SpiderStatus.IDEL


def is_any_alive(spider_threads):
    """
    判斷程序是否活著
    :param spider_threads: 程序
    :return:有一個為 True 返回True 全都死掉返回false
    """
    return any([spider_thread.spider.status == SpiderStatus.WORKING\
                for spider_thread in spider_threads])


def main():
    """
    主程序，當它停止執行時， 守護執行緒就卵了
    主程序裡主要就是定義類的引數
    :return:
    """
    # Queue佇列的意思， 可以往裡面存取東西  定義任務佇列
    task_queue = Queue()
    # 存東西用put 拿東西用get  先放入sohu的url
    task_queue.put('http://m.sohu.com/')
    # 呼叫執行緒物件傳入引數，傳入爬蟲物件 和 任務佇列兩個引數
    # spider()這是個爬蟲物件 建立執行緒物件 會自動呼叫回撥函式run
    spider_threads = [SpiderThread(Spider(task_queue), task_queue) for _ in range(10)]
    # 取出每一個執行緒 啟動執行緒 因為這是一個執行緒類 要是普通類就不需要這一步了
    for spider_thread in spider_threads:
        spider_thread.start()
    # 為了不讓程式執行完了之後主執行緒結束 要不主執行緒結束 守護執行緒就掛了 當沒有任務了 為false時 while迴圈停止 任務隨著爬蟲的執行源源不斷的加入佇列之中
    # 當 沒有時 意味著爬完了 或者當執行緒全死了 也停止迴圈  其他pass 意思是什麼也不執行過，那就進行第二次迴圈
    # 這個迴圈其實就是為了保證 守護執行緒不死 寫的不好， 不過暫時先這麼用
    # 什麼時候結束了 程式往下執行輸入 'Over'
    while not task_queue or is_any_alive(spider_threads):
        pass

    print('Over!')


if __name__ == '__main__':
    main()

python爬蟲——多執行緒+協程（threading+gevent）

以下摘自這篇文章：https://blog.csdn.net/qq_23926575/article/details/76375337 在爬蟲中廣泛運用的多執行緒+協程的解決方案，親測可提高效率至少十倍以上。本文既然提到了執行緒和協程，我覺得有必要在此對程序、執行緒、協程做一個簡單的對

用JAVA實現簡單爬蟲多執行緒抓取

在迴圈爬取得基礎上進行多執行緒爬蟲，本程式中使用的三個執行緒，執行緒為實現runnable介面，並使用物件鎖防止併發共同去訪問同一個物件。讓三個執行緒同時爬去同一個url並且得到的新的url不重複。 import java.io.*; import j

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

爬蟲多執行緒

定義多執行緒類，爬蟲類爬取 m.sohu.com的內容中的帶有href屬性的a連結地址 import logging from enum import unique, Enum from queue import Queue from random i

python簡單爬蟲多執行緒爬取京東淘寶資訊教程

1,需要準備的工作，電腦已經安裝好python，如果沒裝，可以執行去https://www.python.org/官網下載，初學者可以安裝輕量級的wingide python開發工具，python安裝成功後配置好環境變數，在dos環境使用pip install 模組將需要用

python爬蟲多執行緒之queue

首先先來介紹下queue這個包吧，這個包叫佇列，沒錯，就是那個和棧反過來的那個佇列，大家一聽佇列就隨口說出先進先出，而棧則是後進先出，為什麼要用用佇列來實現，其實我也不知道，反正用過之後很順手，具體哪裡也說不上來先來看下佇列的內建方法的，我

Python爬蟲之多執行緒，多程序

前言我們之前寫的爬蟲都是單個執行緒的？這怎麼夠？一旦一個地方卡到不動了，那不就永遠等待下去了？為此我們可以使用多執行緒或者多程序來處理。首先宣告一點！多執行緒和多程序是不一樣的！一個是 thread 庫，一個是 multiprocessing 庫。而多執行緒 thread 在 Pytho

爬蟲與多執行緒

多執行緒和多程序爬蟲一.執行緒 1.什麼是執行緒。執行緒是作業系統能夠進行運算排程的最小單位。它被包含在程序中，是進城中的實際運作單位。一條執行緒指的是程序中一個單一順序的控制流，一個執行緒可以併發多個執行緒，每條執行緒執行不同的任務。 2.執行緒常用的方法

我的豆瓣短評爬蟲的多執行緒改寫

對之前我的那個豆瓣的短評的爬蟲，進行了一下架構性的改動。儘可能實現了模組的分離。但是總是感覺不完美。暫時也沒心情折騰了。同時也添加了多執行緒的實現。具體過程見下。改動獨立出來的部分： MakeOpener MakeRes GetNum IO

非結構化資料與結構化資料提取---多執行緒爬蟲案例

多執行緒糗事百科案例案例要求參考上一個糗事百科單程序案例 Queue（佇列物件） Queue是python中的標準庫，可以直接import Queue引用;佇列是執行緒間最常用的交換資料的形式 python下多執行緒的思考對於資源，加鎖是個重要的環節。因為python原生的list,dict等，

【Python3爬蟲-爬圖片】多執行緒爬取中國國家地理全站美圖，多圖可以提高你的審美哦

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - 1. 單分類爬： from bs4 import BeautifulSo

java多執行緒爬蟲框架crawler4j的使用

一開始找jar包找了好久都沒找到，後來花了6個積分把所有的依賴包找到了，現在放在百度雲供大家免費下載：連結：https://pan.baidu.com/s/12MTMy4d4e6hZsmWAdXbUMQ 提取碼：433g 注意這些依賴包是3.5版本的不是最新版本。如果想使用最新版本的

百度百科多執行緒爬蟲(Java)

BaiduBaikeSpider 百度百科多執行緒爬蟲Java原始碼，資料儲存採用了Oracle11g 簡介採用了MyEclipes作為整合開發環境，應該是相容eclips 使用方法下載此原始碼之後使用（匯入或者 import）操作匯入此專案各個類介紹

網路爬蟲必備知識之concurrent.futures庫 python究竟要不要使用多執行緒

就庫的範圍，個人認為網路爬蟲必備庫知識包括urllib、requests、re、BeautifulSoup、concurrent.futures，接下來將結對concurrent.futures庫的使用方法進行總結建議閱讀本博的博友先閱讀下上篇部落格： python究竟要不要使用多執行緒，將會對co

【爬蟲小程式：爬取鬥魚所有房間資訊】Xpath(多執行緒版)

# 本程式親測有效,用於理解爬蟲相關的基礎知識，不足之處希望大家批評指正 from queue import Queue import requests from lxml import etree from threading import Thread "

Python多執行緒爬蟲學習

此程式碼包含以下學習內容：程式封裝網頁獲取與解析 retry裝飾器與thread多執行緒 Anime code # -*- coding: utf-8 -*- import requests import demjson from retry imp

[原創]一款小巧、靈活的Java多執行緒爬蟲框架（AiPa）

1.作品簡介 AiPa 是一款小巧，靈活，擴充套件性高的多執行緒爬蟲框架。 AiPa 依賴當下最簡單的HTML解析器Jsoup。 AiPa 只需要使用者提供網址集合，即可在多執行緒下自動爬取，並對一些異常進行處理。 2.下載安裝 AiPa是一個小巧的、只有390KB的jar包。下載該Jar包匯入到你的專案中

Python爬蟲開發（三）：資料儲存以及多執行緒

0×00 介紹本文我們就兩個方面來討論如何改進我們的爬蟲：資料儲存和多執行緒，當然我承認這是為我們以後要討論的一些東西做鋪墊。本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論

python多執行緒爬蟲時，主執行緒一直等待錯誤。

1、抓取網站的專輯資訊時，遇到了加上守護執行緒，程式執行完主執行緒，唰的一下就結束了，子執行緒在哪裡？嗯，丟掉了 t.setDaemon(True) #設定守護執行緒把上邊那句註釋掉後，子執行緒…….emmmmm….. 執行了，然後就一直在等待………………………等一個不知道是

AiPa — 小巧、靈活的 Java 多執行緒爬蟲框架

1.框架簡介 AiPa 是一款小巧，靈活，擴充套件性高的多執行緒爬蟲框架。 AiPa 依賴當下最簡單的HTML解析器Jsoup。 AiPa 只需要使用者提供網址集合，即可在多執行緒下自動爬取，並對一些異常進行處理。 2.下載安裝 AiPa是一個小巧的、只有390KB

爬蟲多執行緒

定義多執行緒類， 爬蟲類 爬取 m.sohu.com的內容中的帶有href屬性的a連結地址

相關推薦

定義多執行緒類，爬蟲類爬取 m.sohu.com的內容中的帶有href屬性的a連結地址