爬取不得姐網站，利用多執行緒來爬取

阿新 • • 發佈：2018-11-29

利用到的庫

time, requests, lxml, queue, threading

功能

爬取不得姐網站中前二十頁的段子資料

import time
import requests
from lxml import etree
from queue import Queue
import threading


class bsSpider:
    def __init__(self):
        self.baseUrl = "http://www.budejie.com/"
        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3100.0 Safari/537.36"}
        # URL佇列
        self.urlQueue = Queue()
        # 相應html佇列
        self.resQueue = Queue()

    # 生成url佇列
    def getUrl(self):
        for pNumber in range(1, 01):
            url = self.baseUrl + str(pNumber)
            self.urlQueue.put(url)

    # 請求，得到相應的html，放到解析佇列
    def getHtml(self):
        while True:
            # 1.從url佇列中get值
            url = self.urlQueue.get()
            # 2.發請求，得響應，put到響應佇列中
            res = requests.get(url, headers=self.headers)
            res.encoding = "utf-8"
            html = res.text
            self.resQueue.put(html)
            # 清除此任務
            self.urlQueue.task_done()

    # 解析頁面方法
    def getText(self):
        while True:
            html = self.resQueue.get()
            parseHtml = etree.HTML(html)
            r_list = parseHtml.xpath('//div[@class="j-r-list-c-desc"]/a/text()')
            for r in r_list:
                print(r+"\n")
            self.resQueue.task_done()

    def run(self):
        # 空列表，用來存放
        thList = []
        # 生成URL佇列
        self.getUrl()
        # 建立請求執行緒，放到列表中
        for i in range(10):
            thRes = threading.Thread(target=self.getHtml)
            thList.append(thRes)
        # 建立解析執行緒，放到列表中
        for i in range(3):
            thParse = threading.Thread(target=self.getText)
            thList.append(thParse)
        # 所有執行緒開始幹活
        for th in thList:
            th.setDaemon(True)
            th.start()

        # 如果佇列為空，則執行其他程式
        self.urlQueue.join()
        self.resQueue.join()


if __name__ == '__main__':
    begin = time.time()
    spider = bsSpider()
    spider.run()
    end = time.time()
    print(end - begin)

爬取不得姐網站，利用多執行緒來爬取

利用到的庫 time, requests, lxml, queue, threading 功能爬取不得姐網站中前二十頁的段子資料 import time import requests from lxml import etree from queue

使用java語言，利用多執行緒呼叫WebService進行資料處理

因工作原因，需要將一個表（tbA）中的所有資料，根據user_id，去請求webserive獲取相關的資料，然後插入到另外的一張表(tbB)中，供他人使用。不過這個表中的資料不少有78萬條左右，而這樣的大批量資料操作，還不能白天執行。只能在夜裡，等伺服器負荷低的時候進

python DLib實時性不夠，通過多執行緒來解決

# created at 2017-11-27 # updated at 2018-09-06 # Author: coneypo # Dlib: http://dlib.net/ # Blog: http://www.cnblogs.com/AdaminXie/ # Gi

凌晨1點突發致命生產事故，人工多執行緒來破局！

有一個讀者問我：你認為一個程式設計師具備什麼樣的能力，才算得上是厲害的程式設計師？我答：擁有解決問題的能力的程式設計師。這個回答貌似有點抽象，不要緊看下面的文章你會慢慢有所瞭解。一、解決問題的能力很多年前，當我還是一個小菜鳥的時候，我的領導經常告訴我，解決問題的時候，不要侷限於技術本身，並且形象的給我

Java裸寫爬蟲技術，運用多執行緒技術，高效爬取某個醫療機構網站資料

最近喜歡上了資料的龐大的感覺，就爬取了一下某個醫療機構網站醫療資料，由於資料量龐大，只爬取了江西省的各個市的各個醫院的各個科室的各個科室。中各種資訊。其中用的持久層技術是hibernate框架，和用到一

python3多執行緒爬蟲爬取某美女圖片網站的指定頁圖片資源，你懂的

Queue（佇列物件） queue是python3中的標準庫，可以直接import queue引用;佇列是執行緒間最常用的交換資料的形式。 python下多執行緒的思考對於資源，加鎖是個重要的環節。因為python原生的list,dict等，都是not

au3抓取不得姐網站

lena www reg dex exp star gen www. desc au3抓取不得姐網站網站地址：http://www.budejie.com/text/ 用的正則有些別扭，見笑。代碼： #include <IE.au3> #include &

spider----利用多執行緒爬取51job案例

程式碼如下 import json from threading import Thread from threading import Lock from queue import Queue import requests from bs4 import BeautifulSoup i

java使用jsoup，多執行緒批量爬取天極網某分類下的圖片

小Demo轉自csdn某作者，本例子只作為測試，頁面個數直接設定了100個，可以可能會少或者多，容易報錯，更優化的一種方式是獲取“下一頁”按鈕的地址，然後再訪問，當訪問不到“下一頁”的內容時跳出多執行緒只體現在檔案提取，也可以在elements迴圈中再加一個多執行緒

java使用jsoup，多執行緒批量爬取天極網某分類下的美女圖片

本例子只作為測試，頁面個數直接設定了100個，可以可能會少或者多，容易報錯，更優化的一種方式是獲取“下一頁”按鈕的地址，然後再訪問，當訪問不到“下一頁”的內容時跳出多執行緒只體現在檔案提取，也可以在elements迴圈中再加一個多執行緒訪問頁面的本案例需要jsoup包的

Python爬蟲從入門到精通(3): BeautifulSoup用法總結及多執行緒爬蟲爬取糗事百科

本文是Python爬蟲從入門到精通系列的第3篇。我們將總結BeautifulSoup這個解析庫以及常用的find和select方法。我們還會利用requests庫和BeauitfulSoup來爬取糗事百科上的段子, 並對比下單執行緒爬蟲和多執行緒爬蟲的爬取效率。什麼是

python多執行緒並行爬取

#-*-coding:utf8-*- from multiprocessing.dummy import Pool as ThreadPool import requests import time def getsource(url): html = reque

Python 爬蟲第三步 -- 多執行緒爬蟲爬取噹噹網書籍資訊

XPath 的安裝以及使用 1 . XPath 的介紹剛學過正則表示式，用的正順手，現在就把正則表示式替換掉，使用 XPath，有人表示這太坑爹了，早知道剛上來就學習 XPath 多省事啊。其實我個人認為學習一下正則表示式是大有益處的，之所以換成 XPa

利用多執行緒和TCP技術，實現客戶端與服務端之間的通訊

server.c #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <errno.h>

利用多執行緒解決Tkinter，在button事件中執行高io，高耗時操作，視窗無響應問題

昨天利用python自己寫了一個微型伺服器，突發奇想用Tkinter寫一個GUI介面，並將監聽開始的函式繫結到其中的一個button上，但是當我點選開始服務button時，視窗立馬陷入無響應狀態。搜尋一番發現，是伺服器函式中的while迴圈阻塞了GUI的響應，同理而言

用Winform 利用多執行緒做的一個網站壓力測試小工具（帶原始碼）

我們一直在做網站，但在我河南這塊，對測試工作，特別是壓力測試一般都不怎麼在意，都是自己訪問一下速度不錯就行了，再就是資料庫訪問速度測試也是同樣情況程式設計師在寫Sql程式碼時，一般是一個人寫完之後，一執行可快完事其實這些是不夠的，我們根本沒有進行過多使用者多執行緒的測試，如果是100個，一千個要同時訪問，

乾貨！執行緒池+CountDownLatch，實現多執行緒併發計算、彙總

目錄結構抽象類：求和器單執行緒求和器 VS 多執行緒求和器 1）執行緒池多個執行緒一起併發執行，效能很生猛 2）CountDownLatch 主執行緒使用 latch.await() 阻塞住，直到所有子任務都執行完畢了

SpringBoot2.0文章彙總目錄，java多執行緒教程文章彙總長期更新系列

SpringBoot教程系列【SpringBoot系列01】初識SpringBoot 【SpringBoot系列02】SpringBoot之使用Thymeleaf檢視模板【SpringBoot系列03】SpringBoot之使用freemark檢視模板【Spring

Python執行緒，以及多執行緒帶來的資料錯亂和死鎖的解決方法

摘至本人有道雲筆記《Python執行緒》 1.python多執行緒的建立在Python中，同樣可以實現多執行緒，有兩個標準模組thread和threading，不過我們主要使用更高階的threading模組 threading模組提供的類：　　 Thread,

Java執行緒與執行緒安全，開啟多執行緒及每執行緒迴圈10次對類進行輸出測試

最近看到執行緒問題，emmm~腦闊回想到計算機作業系統貌似又講，不過上課睡覺覺去啦哈哈哈，java課老師莫得講~ 然歸正傳，今對執行緒進行查閱及測試，做一下筆記，有錯之處還請指出，謝謝~上程式碼之前呢先說一哈前傳執行緒是程序中的最小執行單位：手機呢會有很多單獨

爬取不得姐網站，利用多執行緒來爬取

利用到的庫

功能

相關推薦