requests 使用免費的代理ip爬取網站（要效率的話還是推薦花錢買vip）

阿新 • • 發佈：2018-11-29

import requests
import queue
import threading
from lxml import etree

#要爬取的URL
url = "http://xxxxx"

#代理ip網站
proxy_url = "https://www.kuaidaili.com/free/inha/{page}/"

class MyThreadPool:
    def __init__(self, maxsize):
        self.maxsize = maxsize
        self._pool = queue.Queue(maxsize)
        for _ in range(maxsize):
            self._pool.put(threading.Thread)

    def get_thread(self):
        return self._pool.get()

    def add_thread(self):
        self._pool.put(threading.Thread)


def get_url(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36',
               }
    response = requests.get(url,headers=headers)
    html_str = response.text
    return html_str


def proxy_get_url(url,prox):
    proxies = {}
    proxies["http"] = prox
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36',
               }
    response = requests.get(url,headers=headers,proxies=proxies,timeout=3)
    html_str = response.text
    return html_str

def ip_proxy(html_str):
    html = etree.HTML(html_str)
    ip_list = html.xpath('//tr/td[@data-title="IP"]/text()')
    port_list = html.xpath('//tr/td[@data-title="PORT"]/text()')
    http_list = []
    for i in range(len(ip_list)):
        http_proxy = ip_list[i]+":"+port_list[i]
        http_list.append(http_proxy)
    return http_list


def available_ip(ip_list):
    for ip in ip_list:
        try:
            proxy_get_url('https://www.baidu.com/',ip)
        except Exception as e:
            continue
        IP_LIST.append(ip)



if __name__ == "__main__":
    IP_LIST = []
    pool = MyThreadPool(20) #執行緒池數
    #驗證代理ip
    for i in range(1,20): #頁數
        page_ip = get_url(proxy_url.format(page=i))
        ip_list = ip_proxy(page_ip)
        t = pool.get_thread()
        obj = t(target=available_ip,args=(ip_list,))
        obj.start()

    #爬取網站(免費的代理ip可用率感人,有錢還是推薦花錢)
    for ip in IP_LIST:
        try:
            proxy_get_url(url,ip)
        except Exception as e:
            continue
        print(ip)

requests 使用免費的代理ip爬取網站（要效率的話還是推薦花錢買vip）

import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxxxx" #代理ip網站 proxy_url = "https://www.kuaidaili.com/free

java使用代理ip爬取網站內容

在一些有反爬蟲技術的網站中，檢測到同一ip在短時間內多次訪問的時候，可能就會禁掉這個ip。上有政策，下有對策，為了應對這種情況，可以使用多個代理ip去爬取這個網站。 java使用代理ip有兩種方法： 1.設定System系統屬性 // 設定代理IP System.get

（61）-- 用代理IP爬取網頁

# 用隨機代理IP簡單爬取網頁內容# download.py檔案import random from urllib import request import json def getProxy(): with open('xici.json', 'r', enc

Request爬取網站（seo.chinaz.com）百度權重的查詢結果

save 網址 gecko rom 圖片頁面隨機數 user gen 一：腳本需求利用Python3查詢網站權重並自動存儲在本地數據庫（Mysql數據庫）中，同時導出一份網站權重查詢結果的EXCEL表格數據庫類型：MySql 數據庫表單名稱：website_w

Python爬蟲設定代理IP爬取知乎圖片

本文接著前面兩文中提到的內容來繼續完善我們的Python爬蟲。上文地址：通過Python爬蟲爬取知乎某個問題下的圖片設定代理的方式很簡單，可以看看這裡Requests的官方文件，這裡也有對應的中文版介紹，點選開啟連結先簡單說下requests代理的使用，摘自上述提到的文

使用golang+代理IP+goquery開發爬蟲（爬取國外電影網站）

package main import ( "fmt" "github.com/PuerkitoBio/goquery" "net/http" "net/url" "time" "strconv"

PHP簡單爬蟲爬取免費代理ip 一萬條

img mys i++ .com log mage top100 dai code 目標站：http://www.xicidaili.com/ 代碼： <?php require ‘lib/phpQuery.php‘; require ‘lib/QueryList.

golang爬取免費代理IP

golang爬取免費的代理IP，並驗證代理IP是否可用這裡選擇爬取西刺的免費代理Ip，並且只爬取了一頁，爬取的時候不設定useAgent西刺不會給你資料，西刺也做反爬蟲處理了，所以小心你的IP被封掉程式碼： package main import ( "fmt" "githu

scrapy抓取免費代理IP

代理爬蟲 python scrapy 1、創建項目scrapy startproject getProxy2、創建spider文件，抓取www.proxy360.cn www.xicidaili.com兩個代理網站內容cd項目的spiders模塊下執行scrapy genspider pro

常見的User-Agent及免費代理IP網站

ios proxy www 4.4 web tro ida php 代理常見的User-Agent: 1.Android Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.1

python: 抓取免費代理ip

python 抓取免費代理ip通過抓取西刺網免費代理ip實現代理爬蟲： from bs4 import BeautifulSoup import requests import random import telnetlib requests = requests.session() ip_list = []

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

知乎內容抓取二（內含百度知道、百度熱點和代理ip抓取）

sts 精華可用其他添加 get word 登錄 rar 代碼路徑：https://github.com/prophetss/zhihu-crawl 　　接上一篇，知乎的抓取主要是獲取所有話題id進而可以得到所有話題url地址然後就可以抓取具體內容了。之前通過根話

Python3.5+requests 爬取網站遇到中文亂碼怎麼辦？ä½èï¼å¾®è½¯äºæ´²ç ç©¶é¢

import requests from bs4 import BeautifulSoup url = 'http://quote.eastmoney.com/stocklist.html' user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Wind

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

建立自己的IP代理池[爬取西刺代理]

一:基本引數和匯入的包 import requests import re import random url = 'http://www.xicidaili.com/nn' headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)

python3 抓取西刺網免費代理IP並驗證是否可用

爬取西祠網免費高匿代理IP並驗證是否可用存到csv檔案 #匯入模組 import requests import chardet import random from scrapy.selector import Selecto

快過年了,Python大神給免費分享一個爬取12306火車票例子（附原始碼）

。。。上面是以前寫的文章的資源，在以前的文章中有對應的資源，有興趣的可以去檢視。作為一種便捷地收集網上資訊並從中抽取出可用資訊的方式，網路爬蟲技術變得越來越有用。使用Python這樣的簡單程式語言，你可以使用少量程式設計技能就可以爬取複雜的網站。如果手機上顯示程式碼錯亂，請分

python使用requests爬取資料（酷狗hot500案例）（講解細緻）

關於使用requests爬取酷狗hot500的案例 1. 案例環境： python版本：python3.x;

python獲取網頁page數，同時按照href批量爬取網頁（requests+BeautifulSoup）

本篇部落格是上篇部落格（http://blog.csdn.net/trisyp/article/details/78732630）的傳參版，即通過html元素獲取頁面的所有href，然後逐個爬取完整程式碼如下： import requests from bs4 impo

requests 使用免費的代理ip爬取網站（要效率的話還是推薦花錢買vip）

相關推薦