多執行緒處理爬蟲

阿新 • • 發佈：2021-07-16

爬取某網站部分資訊，由於頁面過多，採用多執行緒方式，提高爬取速度，完整程式碼如下

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import requests
from bs4 import BeautifulSoup as Bs4
import threading

headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36",
"Accept-Language": "zh-CN,zh;q=0.9"
}

name_list = []
def url_text(url,n):
    response = requests.get(url,headers = headers)
    response.encoding = 'utf-8'
    try:
        soup = Bs4(response.text,'lxml')
        urls_name = soup.select(".list-item")
        data_dict={}
        for urls in urls_name:
            text_data1 = urls.select(".dp-b")
            n = n + 1
            data_dict["id"] = n
            for i in text_data1:
                data_dict["name"] = i.text.strip()
                # print(data_dict)
            text_data2 = urls.select(".content-img")
            for j in text_data2:
                data_dict["data"] = j.text.strip()
            print(data_dict)
            with open("smiles_0716.txt", "a+", encoding="utf-8") as f:
                f.write(str(data_dict)+"\n")
    except:
        print("請求出錯")
if __name__ == "__main__":
    n = 0
    for num in range(1,20):
        url = "https://www.xxx.com/index_{}.html".format(num)
"""
- 你寫好程式碼
- 交給直譯器執行： python thread1.py 
- 直譯器讀取程式碼，再交給作業系統去執行，根據你的程式碼去選擇建立多少個執行緒/程序去執行（單程序/多執行緒）。
- 作業系統呼叫硬體：硬碟、cpu、網絡卡....
"""
        t = threading.Thread(target=url_text, args=(url,n,))
        t.start()

        n = n + 10

多執行緒處理爬蟲

爬取某網站部分資訊，由於頁面過多，採用多執行緒方式，提高爬取速度，完整程式碼如下

python支援多執行緒的爬蟲例項

python是支援多執行緒的,主要是通過thread和threading這兩個模組來實現的，本文主要給大家分享python實現多執行緒網頁爬蟲

執行緒池多執行緒處理多工，適用按順序輸出結果

package com.test; import java.util.LinkedList; import java.util.List; import java.util.concurrent.*; public class ThreadPoolExecutorTest2 {

Java多執行緒-處理執行緒的返回值

一、主執行緒等待法：優點：實現簡單，缺點：程式碼冗餘 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

C# 多執行緒處理List資料的示例程式碼

程式碼思路將要處理的資料放到ConcurrentQueue中，然後開啟多個執行緒去處理資料，處理完成後，再到佇列中獲取下一個待處理資料。

Android 進度條怎麼做？多執行緒處理（小白速成11）

技術標籤：androidandroidjava安卓android studio 進度條分為不斷滾動的小圓圈，和長條狀的進度條

多執行緒處理任務，相同主鍵按順序處理任務

技術標籤：.NET多執行緒佇列queuec#演算法直接上程式碼 using System; using System.Collections.Concurrent;

QT之串列埠通訊和多執行緒處理

前言　　使用QT的多執行緒程式設計，完成串列埠通訊助手的設計。實施 Qt5下的串列埠程式設計

C# 多執行緒處理同一檔案

原文地址：https://www.cnblogs.com/tianma3798/p/8252553.html C#多執行緒讀寫同一檔案處理

演算法中的多執行緒處理方法簡單總結

最近在做一個手機上多幀配準後疊加平均計算中，需要保證實時性，此時要將輸入資料、處理資料、獲取結果等過程用各自的執行緒處理，同時增加mutex（std中）互斥量保證執行緒處理中資料的佔用安全。

Python大作網圖片採集下載，多執行緒圖片爬蟲

原文出處: https://cloud.tencent.com/developer/article/1666445 大作——找靈感,用大作，一個比較知名的素材類網站，裡面涵蓋多行業圖片素材，類似於花瓣網，發現這種型別的素材網站還是比較多的，Python大作網圖

用 UI 多執行緒處理 WPF 大量渲染的解決方案

眾所周知， WPF 的 UI 渲染是單執行緒的，所以如果我們非同步或者新建執行緒去進行資料處理的時候，處理完，想要更新 UI 的時候，需要呼叫一下 Dispatcher.Invoke，將處理完的資料推入到Dispatcher 中，等待更新介面

多執行緒處理併發

這個面試題考察的是如何設計併發，但是，這裡並沒有說“發工資動作”需要用時多少，所以，這裡分情況討論；

UI 多執行緒處理 WPF 用 UI 多執行緒處理 WPF 大量渲染的解決方案

用 UI 多執行緒處理 WPF 大量渲染的解決方案眾所周知， WPF 的 UI 渲染是單執行緒的，所以如果我們非同步或者新建執行緒去進行資料處理的時候，處理完，想要更新 UI 的時候，需要呼叫一下 Dispatcher.Invoke，

Java多執行緒及分散式爬蟲架構原理解析

這是 Java 爬蟲系列博文的第五篇，在上一篇Java 爬蟲伺服器被遮蔽的解決方案中，我們簡單的聊反爬蟲策略和反反爬蟲方法，主要針對的是 IP 被封及其對應辦法。前面幾篇文章我們把爬蟲相關的基本知識都講的差不多啦。這

python爬蟲中多執行緒的使用詳解

queue介紹 queue是python的標準庫，俗稱佇列.可以直接import引用,在python2.x中,模組名為Queue。python3直接queue即可

python爬蟲開發之使用Python爬蟲庫requests多執行緒抓取貓眼電影TOP100例項

使用Python爬蟲庫requests多執行緒抓取貓眼電影TOP100思路：檢視網頁原始碼抓取單頁內容

Python如何使用佇列方式實現多執行緒爬蟲

說明：糗事百科段子的爬取，採用了佇列和多執行緒的方式，其中關鍵點是Queue.task_done()、Queue.join()，保證了執行緒的有序進行。

使用執行緒池+CountDownLatch 實現多執行緒協同工作結果彙總（適用於資料運算分析，資料庫操作，網頁爬蟲）

多執行緒資料去重使用示例： public void obtainSimilarityRate() { List<FgTestR3> zjFg = list((new QueryWrapper<FgTestR3>())

Python爬蟲必學知識點：多執行緒爬蟲

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。