爬爬看：爬取西刺代理

阿新 • • 發佈：2018-12-19

關鍵字： 西刺代理 爬蟲 CSV檔案

前言

由於群裡一位水友的提問，我打算寫這份程式碼。

西刺網站的代理分為四種：高匿、普通（透明） 、HTTPS 、HTTP 。

對應頁面的 URL 特徵是：nn 、nt 、wn 、wt 。

高匿.png

這裡，我們以 高匿代理 為爬取目標。

目標站點分析

檢視網頁 元素：

爬取目標.png

在標籤 <tr> 中我們發現了代理的 IP 地址和 埠 。

HTML下載器

def getHTML(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36' 

    }
    try:
        r = requests.get(url, headers=headers)
        if r.status_code == 200:
            return (r.text)
    except:
        return ""

HTML解析器

def parseHTML(html, pxyList):
    pattern = re.compile('<tr class=".*?">.*?<td.*?</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?</tr>' 
, re.S)
    data = re.findall(pattern, html)
    for item in data:
        pxyURL = "http://{0}:{1}".format(item[0], item[1])
        pxyList.append(pxyURL)

解析 html 我會優先選擇正則表示式，因為正則解析真的很快。解析的代理引數用格式化輸出：

代理列表.png

測試代理

def testPxy(pxyList):
    pxy = [] #用於存放真正可用的代理
    url = 'https://www.baidu.com/'
    headers = { 

        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }
    for item in pxyList:
        try:
            print("正在測試",item)
            proxies = {
                "https": item,  # "https"的代理速度較慢
                'http': item
            }
            r = requests.get(url, headers=headers, proxies=proxies, timeout=30)
            if r.status_code == 200:
                pxy.append(item)
        except:
            print( "代理無效", item)
    with open('xichiProxies.csv', 'a', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(pxy)

測試代理可不可用，我採用的方式是呼叫代理去訪問 baidu.com ，如果返回的狀態碼是 200 ，則代理是可用的。
最後呼叫 CSV庫 把檔案儲存為 CSV 檔案。

全碼

import requests
import csv
import re

def getHTML(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }
    try:
        r = requests.get(url, headers=headers)
        if r.status_code == 200:
            return (r.text)
    except:
        return ""


def parseHTML(html, pxyList):
    pattern = re.compile('<tr class=".*?">.*?<td.*?</td>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?</tr>', re.S)
    data = re.findall(pattern, html)
    for item in data:
        pxyURL = "http://{0}:{1}".format(item[0], item[1])
        pxyList.append(pxyURL)

def testPxy(pxyList):
    pxy = [] #用於存放真正可用的代理
    url = 'https://www.baidu.com/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
    }
    for item in pxyList:
        try:
            print("正在測試",item)
            proxies = {
                "https": item,  # "https"的代理速度較慢
                'http': item
            }
            r = requests.get(url, headers=headers, proxies=proxies, timeout=30)
            if r.status_code == 200:
                pxy.append(item)
        except:
            print( "代理無效", item)
    with open('xichiProxies.csv', 'a', encoding='utf-8', newline='') as f:
        writer = csv.writer(f)
        writer.writerow(pxy)


def main():
    pxyList = []
    offset = 10  #爬取西刺高匿代理前十頁
    for i in range(offset):
        xcURL = 'http://www.xicidaili.com/nn/' + str(i+1)
        html = getHTML(xcURL)
        parseHTML(html, pxyList)
        print(pxyList)
        testPxy(pxyList)

main()

總結

程式跑起來：

執行程式.png

爬爬看：爬取西刺代理

關鍵字：西刺代理爬蟲 CSV檔案前言由於群裡一位水友的提問，我打算寫這份程式碼。西刺網站的代理分為四種：高匿、普通（透明）、HTTPS 、HTTP 。對應頁面的 URL 特徵是：nn

爬資料時？IP老被封？這樣就不會被封了！爬取西刺代理IP並驗證

胡蘿蔔醬最近在爬取知乎使用者資料，然而爬取不了一會，IP就被封了，所以去爬取了西刺代理IP來使用。這裡爬取的是西刺國內高匿IP。我們需要的就是這一串數字。進群：548377875&nbs

爬取西刺代理

spider： # -*- coding: utf-8 -*-import scrapyfrom collectip.items import CollectipItemclass XiciSpider(scrapy.Spider): name = 'xici' allowed_domains

建立自己的IP代理池[爬取西刺代理]

一:基本引數和匯入的包 import requests import re import random url = 'http://www.xicidaili.com/nn' headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)

python:使用requests,bs4爬取西刺代理並驗證

爬西刺代理的高匿免費代理，並通過http://www.baidu.com進行驗證代理是否可用，存入到excel檔案中檢視原始碼發現：所有的代理資訊都在tr標籤裡面（只有一個例外）找到所有裡面有td標籤的tr標籤 trs = soup.find_

爬取西刺代理IP存入本地txt檔案作為代理IP池（未加入是否可用驗證）

執行環境：Python3.5.3、Windows 10 RS4、Pycharm 2017.2.4 前言我們在爬取資料時，經常會因為請求太過頻繁導致反爬機制生效，不少伺服器的反爬機制

利用java-maven程式爬取西刺網頁的ip代理

主要程式碼: package com.itquwei.spider; import java.io.IOException; import java.nio.charset.Charset; import org.apache.http.HttpEntity; import org.a

爬取西刺網實現ip代理池

使用ip代理伺服器可以防止在爬蟲時被封本機ip。國內免費的高匿代理可以選擇西刺網總體目標是寫一個爬蟲，將這些欄位儲存在資料庫中，然後篩選速度快的作為代理伺服器，實現ip代理池。在這裡使用requests庫來實現。程式碼如下import requests def crawl_i

scrapy爬取西刺網站ip

close mon ins css pro bject esp res first # scrapy爬取西刺網站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem clas

爬取西刺ip的插入資料庫相關問題

今晚解決了前幾天爬取西刺ip網不能插入資料庫的問題，成功爬取並插入資料庫的程式碼如下# encoding: utf-8 import re import requests from scrapy.selector import Selector import MySQLdb

python爬蟲十二：爬取快速ip代理，攻破503

轉：https://zhuanlan.zhihu.com/p/26701898 1.自定爬蟲方法 # -*- coding: utf-8 -*- import scrapy import requests from proxy.items import ProxyItem

python：多執行緒抓取西刺和快站高匿代理IP

　　一開始是打算去抓取一些資料，但是總是訪問次數多了之後被封IP，所以做了一個專門做了個工具用來抓取在西刺和快站的高匿IP。　　執行環境的話是在python3.5下執行的，需要requests庫　　在製作的過程中也參考的以下網上其他人的做法，但是發現很大一部分都不是多執行緒去抓取有點浪費時間了，又或者

用scrapy爬取有用的免費的西刺代理

爬蟲為什麼要使用代理伺服器？可以總結為以下幾點： 1.我們在使用python爬蟲爬取一個網站時，通常會頻繁訪問該網站。網站的反爬蟲技術就會檢某一段時間某個IP的訪問次數，如果訪問次數過多，它就會禁用你的IP，所以我們可以設定一些代理伺服器來幫助你做工作，每隔一段時間

從西刺代理爬取代理ip，並驗證是否可用

最近又重新拾起了久違的爬蟲，寫了一個代理ip的爬取，驗證和儲存器。 1.爬取網站是西刺代理，使用了requests+beautifulsoup庫 2.驗證的網站使用了京東和淘寶的首頁，用了urllib+beautifulsoup庫 3.將爬取後的程式碼存入本地的資料庫中，

python3 抓取西刺網免費代理IP並驗證是否可用

爬取西祠網免費高匿代理IP並驗證是否可用存到csv檔案 #匯入模組 import requests import chardet import random from scrapy.selector import Selecto

python網路爬蟲實戰——實時抓取西刺免費代理ip

參考網上高手示例程式，利用了多執行緒技術，Python版本為2.7 #-*-coding:utf8-*- import urllib2 import re import threading import time rawProxyList = [] checkedPr

Scrapy抓取西刺高匿代理ip

如題：因為想試試代理ip，所以就想著在西刺上爬一些ip用用如上兩節所示，具體如何建立Scrapy工程的細節不在贅述。 scrapy startproject xici scrapy genspider xici http://www.xicidail

Python爬蟲新手教程：爬取了6574篇文章，告訴你產品經理在看什麼！

作為網際網路界的兩個對立的物種，產品汪與程式猿似乎就像一對天生的死對頭；但是在產品開發鏈條上緊密合作的雙方，只有通力合作，才能更好

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

爬爬看：爬取西刺代理

前言

目標站點分析

HTML下載器

HTML解析器

測試代理

全碼

總結

相關推薦