python網路爬蟲實戰——實時抓取西刺免費代理ip

阿新 • • 發佈：2019-01-26

參考網上高手示例程式，利用了多執行緒技術，Python版本為2.7

#-*-coding:utf8-*-

import urllib2
import re
import threading
import time

rawProxyList = []
checkedProxyList = []

#抓取代理網站
targets=[]
for i in range(1,6):
    target = r"http://www.xici.net.co/nn/%d" % i
    targets.append(target)
# print targets

#正則
p = re.compile(r'''<tr class=".+?(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})</td>.+?(\d{2,4})</td>.+?<td>(.{4,5})</td>''',re.DOTALL)

#獲取代理的類
class ProxyGet(threading.Thread):
    def __init__(self,target):
        threading.Thread.__init__(self)
        self.target = target

    def getProxy(self):
        print "目標網站："+self.target
        req = urllib2.urlopen(self.target)
        result = req.read()
        matchs = p.findall(result)
        for row in matchs:
            ip = row[0]
            port = row[1]
            agent = row[2]
            addr=agent+'://'+ip+':'+port
            proxy = [ip,port,addr]
            rawProxyList.append(proxy)

    def run(self):
        self.getProxy()

#檢驗代理類
class ProxyCheck(threading.Thread):
    def __init__(self,proxyList):
        threading.Thread.__init__(self)
        self.proxyList = proxyList
        self.timeout=5
        self.testUrl = "http://www.baidu.com/"
        self.testStr = "030173"

    def checkProxy(self):
        cookies = urllib2.HTTPCookieProcessor()
        for proxy in self.proxyList:
            proxyHandler = urllib2.ProxyHandler({"http" : r'http://%s:%s' %(proxy[0],proxy[1])})
            opener=urllib2.build_opener(cookies,proxyHandler)
            opener.addheaders =[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]
            t1 = time.time()
            try:
                req = opener.open(self.testUrl,timeout=self.timeout)
                result=req.read()
                timeused = time.time()-t1
                pos = result.find(self.testStr)

                if pos > 1:
                    checkedProxyList.append((proxy[0],proxy[1],proxy[2],timeused))
                else:
                    continue
            except Exception,e:
                continue

    def run(self):
        self.checkProxy()

if __name__ == "__main__":
    getThreads=[]
    checkThreads=[]

#對每個目標網站開啟一個執行緒負責抓取代理
for i in range(len(targets)):
    t = ProxyGet(targets[i])
    getThreads.append(t)

for i in range(len(getThreads)):
    getThreads[i].start()

for i in range(len(getThreads)):
    getThreads[i].join()

print '.'*10+"總共抓取了%s個代理" %len(rawProxyList) +'.'*10

#開啟20個執行緒負責校驗，將抓取到的代理分成20份，每個執行緒校驗一份
for i in range(20):
    t = ProxyCheck(rawProxyList[((len(rawProxyList)+19)/20) * i:((len(rawProxyList)+19)/20) * (i+1)])
    checkThreads.append(t)

for i in range(len(checkThreads)):
    checkThreads[i].start()

for i in range(len(checkThreads)):
    checkThreads[i].join()

print '.'*10+"總共有%s個代理通過校驗" %len(checkedProxyList) +'.'*10

#持久化
f= open("proxy_list.txt",'w+')
for proxy in sorted(checkedProxyList,cmp=lambda x,y:cmp(x[3],y[3])):
    print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])
    f.write("%s:%s\t%s\t%s\n"%(proxy[0],proxy[1],proxy[2],proxy[3]))
f.close()

python網路爬蟲實戰——實時抓取西刺免費代理ip

參考網上高手示例程式，利用了多執行緒技術，Python版本為2.7 #-*-coding:utf8-*- import urllib2 import re import threading import time rawProxyList = [] checkedPr

Python網路爬蟲實戰：抓取和分析天貓胸罩銷售資料

本文實現一個非常有趣的專案，這個專案是關於胸罩銷售資料分析的。Google曾給出了一幅世界女性胸部尺寸分佈地圖，從地圖中可以明顯看出中國大部分地區呈現綠色（表示平均胸部尺寸為A罩杯），少部分地區呈現藍色（表示平均胸部尺寸為B罩杯）現在李寧老師也來驗證一下這個

Project 3 ：Python爬蟲原始碼實現抓取1000條西刺免費代理IP-HTTPS並儲存讀取

基於python3.6—pycharm編寫的，都已經除錯過了，歡迎大家提出交流意見。關於一些基礎的資料網頁分析（比如為什麼是這個url）沒有過多贅述，看不懂的自行百度。原始碼可以直接拷貝執行。轉載請註明來源。import requests import re ''' Pyt

Python 網路爬蟲實戰：爬取 B站《全職高手》20萬條評論資料

本週我們的目標是：B站（嗶哩嗶哩彈幕網 https://www.bilibili.com ）視訊評論資料。我們都知道，B站有很多號稱“鎮站之寶”的視訊，擁有著數量極其恐怖的評論和彈幕。所以這次我們的目標就是，爬取B站視訊的評論資料，分析其為何會深受大家喜愛。首先去調研一下，B站評論數量最多的視訊是哪一

python：多執行緒抓取西刺和快站高匿代理IP

　　一開始是打算去抓取一些資料，但是總是訪問次數多了之後被封IP，所以做了一個專門做了個工具用來抓取在西刺和快站的高匿IP。　　執行環境的話是在python3.5下執行的，需要requests庫　　在製作的過程中也參考的以下網上其他人的做法，但是發現很大一部分都不是多執行緒去抓取有點浪費時間了，又或者

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

尋找並分析百度雲的轉存api 首先你得有一個百度雲盤的賬號，然後登入，用瀏覽器（這裡用火狐瀏覽器做示範）開啟一個分享連結。F12開啟控制檯進行抓包。手動進行轉存操作：全選檔案->儲存到網盤->選擇路徑->確定。點選【確定】前建議先清空一下抓包記錄，這樣可以精確定位到轉存的api，這就是

用網路爬蟲爬取新浪新聞----Python網路爬蟲實戰學習筆記

今天學完了網易雲課堂上Python網路爬蟲實戰的全部課程，特在此記錄一下學習的過程中遇到的問題和學習收穫。我們要爬取的網站是新浪新聞的國內版首頁下面依次編寫各個功能模組 1.得到某新聞頁面下的評論數評論數的資料是個動態內容，應該是存在伺服器

Python爬蟲實戰之抓取淘寶MM照片（一）

背景 Python爬蟲系列教程的一次實戰，然而淘寶進行過頁面改版，現在已經沒有淘寶MM這個版面，取而代之的是淘女郎。改版後，頁面是使用JS渲染的，並不能直接通過url來切換頁碼。該系列教程後續講到

爬蟲實戰1--抓取糗事百科段子

爬蟲1.提取某一頁的所有段子 # -*- coding:utf-8 -*- import urllib import urllib2 import re page = 1 url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page) user_agen

Python網路爬蟲實戰

阿里雲大學：Python網路爬蟲實戰網路爬蟲（又被稱為網頁蜘蛛，網路機器人），是一種按照一定的規則，自動的抓取資訊的程式或者指令碼。網路爬蟲是網際網路上進行資訊採集的通用手段，在網際網路的各個專業方向上都是不可或缺的底層技術支撐。本課程從爬蟲基礎開始，全面介紹了Python網路爬蟲技術，

Pyhon網路爬蟲學習筆記—抓取本地網頁（一）

如何用Python爬取本地網頁一、寫出一個簡單的靜態網頁，下面是我隨便寫的一個網頁原始碼如下 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UT

網路爬蟲中Fiddler抓取PC端網頁資料包與手機端APP資料包

1 引言　　在編寫網路爬蟲時，第一步（也是極為關鍵一步）就是對網路的請求（request）和回覆（response）進行分析，尋找其中的規律，然後才能通過網路爬蟲進行模擬。瀏覽器大多也自帶有除錯工具可以進行抓包分析，但是瀏覽器自帶的工具比較輕量，複雜的抓包並不支援。且有時候需要編寫手機APP爬

[記錄]Java網路爬蟲基礎和抓取網站資料的兩個小例項

前段時間在學習爬蟲，並從網路抓取了一些簡單的資料，記錄一下。抓取分成下面3個部分： 1、網路請求 2、解析抓取下來的頁面，並且處理亂碼或者解壓程式碼的問題 3、拿到指定的資料、資源完整程式碼如下：第一個例項： /** * 從某網站查詢所有帖子標題 * 把所有

Python網路爬蟲實戰專案程式碼大全

WechatSogou [1]- 微信公眾號爬蟲。基於搜狗微信搜尋的微信公眾號爬蟲介面，可以擴充套件成基於搜狗搜尋的爬蟲，返回結果是列表，每一項均是公眾號具體資訊字典。 DouBanSpider [2]- 豆瓣讀書爬蟲。可以爬下豆瓣讀書標籤下的所有圖書，按評分排名依次儲存，儲

python網路爬蟲實戰--重點整理

第四章--python爬蟲常用模組 urllib2.urlopen(url,timeout)請求返回響應，timeout是超時時間設定#! python2.7 #-*- coding:utf-8 -*- import urllib2 def linkBaidu()

字母數字窮舉排列組合域名，位數遞增，網路爬蟲，網頁抓取

List<List<string>> res = Generate("abcdefghijklmnopqrstuvwxyz0123456789-"); Console.WriteLine("Count = "

Python網路爬蟲實戰(一)快速入門

本系列從零開始闡述如何編寫Python網路爬蟲，以及網路爬蟲中容易遇到的問題，比如具有反爬,加密的網站，還有爬蟲拿不到資料，以及登入驗證等問題，會伴隨大量網站的爬蟲實戰來進行。我們編寫網路爬蟲最主要的目的是爬取想要的資料還有通過爬蟲去自動完成我們想在網站中做的一些事情。從今天開始我會從基礎開始講解如何通過

Python網路爬蟲實戰(二)資料解析

上一篇說完了如何爬取一個網頁，以及爬取中可能遇到的幾個問題。那麼接下來我們就需要對已經爬取下來的網頁進行解析，從中提取出我們想要的資料。根據爬取下來的資料，我們需要寫不同的解析方式，最常見的一般都是HTML資料，也就是網頁的原始碼，還有一些可能是Json資料，Json資料是一種輕量級的資料交換格式，相對來說

Python網路爬蟲實戰(三)照片定位與B站彈幕

之前兩篇已經說完了如何爬取網頁以及如何解析其中的資料，那麼今天我們就可以開始第一次實戰了。這篇實戰包含兩個內容。 * 利用爬蟲呼叫Api來解析照片的拍攝位置 * 利用爬蟲爬取Bilibili視訊中的彈幕關於爬蟲呼叫Api這一說法，其實就是通過get或者post請求攜帶著引數，將內容發給對方伺服器，伺服器會

Python網路爬蟲實戰(四)模擬登入

對於一個網站的首頁來說，它可能需要你進行登入，比如知乎，同一個URL下，你登入與未登入當然在右上角個人資訊那裡是不一樣的。 (登入過) (未登入) 那麼你在用爬蟲爬取的時候獲得的頁面究竟是哪個呢？肯定是第二個，不可能說你不用登入就可以訪問到一個使用者自己的主頁資訊，那麼是什麼讓同一個URL在爬蟲訪問

python網路爬蟲實戰——實時抓取西刺免費代理ip

相關推薦