web爬蟲01-單執行緒爬蟲

阿新 • • 發佈：2021-10-13

單執行緒爬蟲

目標網站：https://movie.douban.com/top250 豆瓣top250

程式碼：

import codecs
import requests
from bs4 import BeautifulSoup
import time

DOWNLOAD_URL = 'https://movie.douban.com/top250'


# 時間裝飾器
def timer(func):
    def inner(*args, **kw):
        t1 = time.time()
        func(*args, **kw)
        t2 = time.time()
        print("-------一共花費時間：{}秒".format(t2-t1))
        return t2 - t1
    return inner


# 下載html
def download_page(url):
    return requests.get(url, headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
    }).content


# 提取需要資訊
def parse_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    # 電影列表
    movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})

    movie_name_list = []

    for movie_li in movie_list_soup.find_all('li'):
        movie_name = movie_li.find('span', attrs={'class': 'title'}).get_text()
        movie_info = movie_li.find('div', attrs={'class': 'bd'}).find('p').get_text()
        movie_star = movie_li.find('span', attrs={'class': 'rating_num'}).get_text()

        movie_name_list.append(movie_name)
        movie_name_list.append(movie_info)
        movie_name_list.append(movie_star)

    # 下一頁連結
    next_page = soup.find('span', attrs={'class': 'next'}).find('a')
    if next_page:
        return movie_name_list, DOWNLOAD_URL + next_page['href']
    return movie_name_list, None


@timer
def main():
    url = DOWNLOAD_URL
    with codecs.open('movies', 'wb', encoding='utf-8') as f:
        while True:
            if url == None:
                break
            html = download_page(url)
            movies, url = parse_html(html)
            f.write(u'{movies}\n'.format(movies='\n'.join(movies)))


if __name__ == '__main__':
    main()
#參考連結：https://www.jianshu.com/p/8a460be5a26e

花費時間：

web爬蟲01-單執行緒爬蟲

單執行緒爬蟲目標網站：https://movie.douban.com/top250 豆瓣top250 程式碼： import codecs

web爬蟲02-多執行緒爬蟲

多執行緒爬蟲原理利用CPU和IO可以同時執行的原理，讓CPU不會幹巴巴的等待IO的完成

python多程序爬蟲與多執行緒爬蟲模板

技術標籤：python爬蟲多執行緒python爬蟲多程序爬蟲不需要也沒必要過多解釋，不懂的可以看我python學習筆記專欄關於多執行緒與多程序的介紹

爬蟲3 request3高階代理操作、模擬登入、單執行緒+多工非同步協程

- HttpConnectinPool:- 原因：- 1.短時間內發起了高頻的請求導致ip被禁- 2.http連線池中的連線資源被耗盡- 解決：- 1.代理- 2.headers中加入Conection：“close”

python基礎爬蟲——單執行緒多執行緒爬取圖片

技術標籤：pythonpython 困於心衡於慮而後作今天的學習目標是：單執行緒與多執行緒爬取網頁圖片 python單執行緒：

python爬蟲中多執行緒的使用詳解

queue介紹 queue是python的標準庫，俗稱佇列.可以直接import引用,在python2.x中,模組名為Queue。python3直接queue即可

Python如何使用佇列方式實現多執行緒爬蟲

說明：糗事百科段子的爬取，採用了佇列和多執行緒的方式，其中關鍵點是Queue.task_done()、Queue.join()，保證了執行緒的有序進行。

Python爬蟲必學知識點：多執行緒爬蟲

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

爬蟲10-2（多執行緒爬蟲）

繼承自threading.Thread類為了讓執行緒程式碼更好的封裝。可以使用threading模組下的Thread類，繼承自這個類，然後實現run方法，執行緒就會自動執行run方法中的程式碼。示例程式碼如下：

python爬蟲之多執行緒、多程序+程式碼示例

python爬蟲之多執行緒、多程序使用多程序、多執行緒編寫爬蟲的程式碼能有效的提高爬蟲爬取目標網站的效率。

Python多執行緒爬蟲詳解

一、程式程序和執行緒之間的關係程式：一個應用就是一個程式，比如：qq，爬蟲

如何讓爬蟲提速？多執行緒爬蟲一秒50圖瞭解一下

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

python3爬蟲中多執行緒的優勢總結

有些小夥伴跟小編討論了python中使用多執行緒原理的問題，就聊到了關於python多執行緒的弊端問題，這點可能在使用的過程中大家會能感覺到。而且之前講過的GIL也是對python多執行緒的一種限制。那麼，我們為什麼還要用

python3爬蟲中多執行緒進行解鎖操作例項

生活中我們為了保障房間裡物品的安全，所以給門進行上鎖，在我們需要進入房間的時候又會重新開啟。同樣的之間我們講過多執行緒中的lock，作用是為了不讓多個執行緒執行是出錯所以進行鎖住的指令。但是鑑於我們實際運

Python基礎進階之海量表情包多執行緒爬蟲

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python基礎進階之海量表情包多執行緒爬蟲功能的實現

一、前言在我們日常聊天的過程中會使用大量的表情包，那麼如何去獲取表情包資源呢?今天老師帶領大家使用python中的爬蟲去一鍵下載海量表情包資源

Python爬蟲速度很慢？多執行緒爬蟲瞭解一下，提高10倍速度

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Linux IO 複用之 epoll 介紹與 epoll 應用(編寫單執行緒多併發的 Web 伺服器)

技術標籤：Linuxlinux伺服器一、Linux epoll 介紹 epoll是Linux核心為處理大批量檔案描述符而作了改進的poll，是Linux下多路複用IO介面select/poll的增強版本，它能顯著提高程式在大量併發連線中只有少量活躍的

Python爬蟲教程：執行緒池和程序池

技術標籤：程式語言python ####一、需求最近準備爬取某電商網站的資料，先不考慮代理、分散式，先說效率問題（當然你要是請求的太快就會被封掉，親測，400個請求過去，伺服器直接拒絕連線，心碎），步入正題。一

非同步爬蟲之多執行緒與執行緒池的區別

技術標籤：爬蟲筆記python多執行緒非同步爬蟲的方式： - [1] 多執行緒、多程序