爬蟲神奇非同步爬蟲

阿新 • • 發佈：2020-07-20

一、背景

有一個專案需要使用到爬蟲，因此去Google上搜索了一下，發現除了requests，scrapy，多執行緒，多程序以外，還有一種方法非同步爬蟲。使用aiohttp+async來進行網站的爬取。

二、使用

通過以下的指令安裝

# 通過指令安裝aiohttp
pip install aiohttp

我們在使用aiohttp的時候，還需要注意就是需要使用async這種非同步程式設計的方式。同時這個方法需要python3.5以上。主要是使用aiohttp這種非同步的方式來進行爬取。

採取一個不是很準確的圖

三、模型

3.1 多執行緒爬蟲模型

3.2 非同步爬蟲模型

四、核心程式碼

其實和一般的request爬蟲一樣，只是需要注意這裡需要使用aiohttp他是非同步程式設計的，因此需要用到async的方法

# 設定爬蟲的日誌格式
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
logger = logging.getLogger(__name__)

df = pd.DataFrame(columns=['occupation', 'companyName', 'location', 'salary', 'date', 'education', 'experience', 'companyType', 'companySize', 'type', 'request 
'])


# 非同步HTTP請求
async def fetch(sem11, session, url):
    async with sem11:
        async with session.get(url, headers=header) as response:
            return await response.text(errors='ignore')

# 處理網頁
async def download(sem, url):
    async with aiohttp.ClientSession() as session:
        try:
            html  
= await fetch(sem, session, url)  # 這裡新增網頁的解析程式碼
            await parser(html)
        except Exception as err:
            print(err)


if __name__ == '__main__':
    # 統計該爬蟲的消耗時間
    print('*' * 50)
    t_start_web = time.time()
    loop = asyncio.get_event_loop()
    sem1 = asyncio.Semaphore(100)
    # 第一個人 3413
    # 第二個人 3413：6826
    # 第三個人 6826：
    tasks = [asyncio.ensure_future(download(sem1, url)) for url in urls[:3413]]
    tasks = asyncio.gather(*tasks)
    loop.run_until_complete(tasks)
    t_end_web = time.time()
    print('網站爬取總共耗時：%s' % (t_end_web - t_start_web))

五、參考

5.1 詳細介紹

http://www.ityouknow.com/python/2019/12/28/python-aiohttp-102.html

https://www.jianshu.com/p/b8010594557f

5.2 效能對比

https://www.cnblogs.com/jiyongjia/p/9803991.html

爬蟲神奇非同步爬蟲

一、背景有一個專案需要使用到爬蟲，因此去Google上搜索了一下，發現除了requests，scrapy，多執行緒，多程序以外，還有一種方法非同步爬蟲。使用aiohttp+async來進行網站的爬取。

高效能非同步爬蟲

高效能非同步爬蟲目的：在爬蟲中使用非同步實現高效能的資料爬取操作。非同步爬蟲的方式：

python3非同步爬蟲 ——aiohttp模板使用

一.簡單使用和講解 import aiohttp import asyncio async def fetch(client): async with client.get(\'http://httpbin.org/get\') as resp:

非同步爬蟲之多執行緒與執行緒池的區別

技術標籤：爬蟲筆記python多執行緒非同步爬蟲的方式： - [1] 多執行緒、多程序

python 高效能非同步爬蟲執行緒＆執行緒池

爬蟲本質其實爬蟲的本質就是Client發請求批量獲取Server的響應資料，如果我們有多個url待爬取，只用一個執行緒且採用序列的方式執行，那隻能等待爬取一個結束後才能繼續下一個，效率會非常低。需要強調的是：對於單

Python爬蟲之非同步講解

目錄1 非同步爬蟲1.1 非同步瞭解2 多執行緒2.1 多執行緒講解2.2 thread模組2.3 threading3 執行緒池3.1 單執行緒序列3.2 使用執行緒池4 協程操作4.1 協程基本概念4.2 協程基本操作4.2.1 協程物件4.2.2 task物件4.2.

Python 非同步爬蟲 aiohttp 示例

1、寫在前面之前一篇隨筆記錄了非同步的個人理解https://www.cnblogs.com/rainbow-tan/p/15081118.html

第八章高效能非同步爬蟲

高效能非同步爬蟲目的：在爬蟲中使用非同步實現高效能的資料爬取操作。同步爬蟲：（阻塞）

15 爬蟲與反爬蟲

有的時候，當我們的爬蟲程式完成了，並且在本地測試也沒有問題，爬取了一段時間之後突然就發現報錯無法抓取頁面內容了。這個時候，我們很有可能是遇到了網站的反爬蟲攔截。

Python爬蟲與反爬蟲大戰

爬蟲與發爬蟲的廝殺，一方為了拿到資料，一方為了防止爬蟲拿到資料，誰是最後的贏家？

Python爬蟲之反爬蟲---使用隨機User-Agent

在編寫爬蟲時，大多數情況下，需要設定請求頭。而在請求頭中，隨機更換User-Agent可以避免觸發相應的反爬機制。

Scrapy爬蟲(七)：爬蟲資料儲存例項

Scrapy爬蟲(七)：爬蟲資料儲存例項 Scrapy爬蟲七爬蟲資料儲存例項資料儲存配置mysql服務

Python爬蟲學習——1.爬蟲入門

HTTP和HTTPS HTTP協議（HyperText Transfer Protocol，超文字傳輸協議）：是一種釋出和接收 HTML頁面的方法。

Python爬蟲之App爬蟲視訊下載的實現

前言隨著手app的發展逐漸強大，我們手機應用每天的生活也是非常的多。那我們怎麼知道他的資料是怎麼形成的，通過電腦端如何爬取。相信大家也有這樣的問題。下面我將講解這些操作流程。

爬蟲5-Scrapy爬蟲架構

簡介 Scrapy是爬取網站，提取結構性資料並存儲的應用框架。對爬取過程中的請求、返回、解析、儲存、排程等流程提供模組化支援。

node爬蟲框架_node 爬蟲入門例項，簡單易懂

技術標籤：node爬蟲框架前言本文介紹一個 koa 的爬蟲專案，受眾物件為初學前端不久的小夥伴，通過這個專案能對 node 爬蟲有一個簡單的認識，也能自己動手寫一些簡單的爬蟲。專案地址：

python爬蟲學習：從資料庫讀取目標爬蟲站點及爬蟲規程，批量爬取目標站點制定資料（scrapy框架）

資料庫databaseConfig.py ` from urllib.parse import quote_plus from pymongo import MongoClient import settings

爬蟲實戰：爬蟲加資料分析，重慶電氣小哥一文帶你分析重慶所有旅遊景點

技術標籤：爬蟲爬蟲python 寒假已經到了，玩是要玩的，作為一個地地道道的重慶電網小哥，今天想用python爬蟲+資料分析的方式告訴你重慶哪些地方好玩。

8 爬取EOS whales網站出現的ssl驗證問題以及無法建立websocket握手問題（北京大學出版社的《python 爬蟲與反爬蟲開發》書中錯誤）

案例來源於北京大學出版社的《python爬蟲與反爬蟲開發》 1.對於ssl驗證問題的解決

不踩坑的Python爬蟲:《Python爬蟲開發與專案實戰》，從爬蟲入門 Python ！

仔細觀察發現，現在懂爬蟲、學習爬蟲的人越來越多。為什麼Python爬蟲這麼受歡迎呢？