爬蟲(cookie,代理IP)

阿新 • • 發佈：2019-01-29

1.先登入得到url 和cookie

import urllib.request

url="https:***"
headers={
    "Host           ":"blog.csdn.net" ,
    "Connection     ":"keep-alive" ,
    # "Cache-Control  ":"max-age=0" ,
    "User-Agent     ":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" ,
    "Accept         ":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8" ,
    "Referer        ":"https :****" ,
    "Accept-Language":"zh-CN,zh;q=0.9" ,
    "Cookie         ":"*******"

}
request=urllib.request.Request(url,headers=headers)
response=urllib.request.urlopen(request)
html=response.read()
html=html.decode('utf-8')
print(html)

2.opener 是urllib2.OpenerDirector的例項,我們之前一直都在使用的urlopen,它是一個特殊的opener(也就是模組幫我們構建好的).

但是基本的urlopen()方法不支援代理,cookie等其他的HTTP/HTTPS高階功能.所以要支援這些功能

使用相關的Handler處理器,建立特定功能的處理物件
然後通過urllib.request.build_opener()的方法使用這些處理器物件,建立自定義opener物件
使用自定義的opener物件,呼叫open()方法傳送請求

如果程式裡所有的請求都是用自定義的opener,可以使用urllib.request.install_opener()將自定義的opener物件定義為全域性,表示如果之後凡是呼叫urlopen,都將使用opener()根據需求來選擇

開放代理與私密代理的使用

import urllib.request

#代理開關
from urllib.request import ProxyHandler

proxyswitch=True

#構建一個Handler處理物件,引數是一個字典型別,包括代理型別和代理伺服器IP+PROT
httpproxy_handler=ProxyHandler({"http":"****"})
#獨享私密代理
# httpproxy_handler=ProxyHandler({"http":"使用者名稱:密碼@114.215.95.188:埠號"})

#構建了一個沒有代理的處理物件
nullproxy_handler=ProxyHandler({})

if proxyswitch:
    opener=urllib.request.build_opener(httpproxy_handler)
else:
    opener=urllib.request.build_opener(nullproxy_handler)

#構建一個全域性的opener,之後的所有請求都可以用urlopen()方式去傳送,也附帶handler的功能
urllib.request.install_opener(opener)
request=urllib.request.Request('http://www.baidu.com/')
response=urllib.request.urlopen(request)
html=response.read()


print(html)

爬蟲(cookie,代理IP)

1.先登入得到url 和cookie import urllib.request url="https:***" headers={ "Host ":"blog.csdn.net" , "Connection ":"keep-a

在Scrapy中使用爬蟲動態代理IP

本文介紹如何在Scrapy中使用無憂代理（www.data5u.com）的爬蟲動態代理IP，以及如何設定User-Agent. 一、建立Scrapy工程 scrapy startproject 工程名二、進入工程目錄，根據爬蟲模板生成爬蟲檔案 scrapy g

Python實現爬蟲設定代理IP和偽裝成瀏覽器的方法分享

Python實現爬蟲設定代理IP和偽裝成瀏覽器的方法分享 1.python爬蟲瀏覽器偽裝 1

Python3 爬蟲使用代理 IP

寫了比較詳細的註釋,就不廢話了: # -*- coding: utf-8 -*- #引入requests庫,沒有安裝請 cmd> pip install requests import requests #要使用的代理 IP #我在西刺上找的,過期了的話自己找過 #西刺: htt

Scrapy爬蟲：代理IP配置

Scrapy設定代理IP步驟： 1、在Scrapy工程下新建"middlewares.py": ? 1 2 3 4 5 6 7 8 9 10 11 12 13 import base64 # Start your middl

python3爬蟲偽裝代理IP

在爬取類似起點色魔張大媽這樣的網站時，會被網站看出是爬蟲機制，這時需要偽裝成瀏覽器以及使用IP代理的方式來爬去正常內容。例項import re import requests import urllib.request from lxml import etree

python爬蟲設定代理ip池——方法（一）

"""在使用python爬蟲的時候，經常會遇見所要爬取的網站採取了反爬取技術，高強度、高效率地爬取網頁資訊常常會給網站伺服器帶來巨大壓力，所以同一個IP反覆爬取同一個網頁，就很可能被封，那如何解決呢？使用代理ip，設定代理ip池。以下介紹的免費獲取代理ip池的方法：優點：1.

python app多執行緒爬蟲以及代理ip的使用

用的是執行緒池 import requests import json from multiprocessing import Queue from handle_mongo import mongo_info from concurrent.futures import

Python爬蟲設定代理IP爬取知乎圖片

本文接著前面兩文中提到的內容來繼續完善我們的Python爬蟲。上文地址：通過Python爬蟲爬取知乎某個問題下的圖片設定代理的方式很簡單，可以看看這裡Requests的官方文件，這裡也有對應的中文版介紹，點選開啟連結先簡單說下requests代理的使用，摘自上述提到的文

爬蟲使用代理IP為什麽不能全部成功

針對選擇避免不存在一是要求網絡如何選擇後來很多朋友在網絡工作中經常會碰到各種各樣的問題，比如訪問某網站加載太慢，多刷新了幾次被提示訪問太頻繁IP被限制；有的網站註冊了幾個賬號後提示當前IP最多只能註冊3個賬號或者直接封號；有的網站發幾個帖子提示當天發帖已經

建立爬蟲代理IP池

web odin pro __main__ headers XML Coding txt文件端口號 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from l

Python3網絡爬蟲(四)：使用User Agent和代理IP隱藏身份

允許 pos like term a10 不想成了 head 訪問一、為何要設置User Agent 有一些網站不喜歡被爬蟲程序訪問，所以會檢測連接對象，如果是爬蟲程序，也就是非人點擊訪問，它就會不讓你繼續訪問，所以為了要讓程序可以正常運行，需要隱藏自己的爬蟲程

Python3網絡爬蟲（3）：使用User Agent和代理IP隱藏身份

pycharm info 3.1 port rm2 andro python uil blank Python版本：　python3 IDE:　　　　　 pycharm2017.3.3 一、為何要設置User Agent 　　有一些網站不喜歡被爬蟲訪問，所以會檢測對象

PHP簡單爬蟲爬取免費代理ip 一萬條

img mys i++ .com log mage top100 dai code 目標站：http://www.xicidaili.com/ 代碼： <?php require ‘lib/phpQuery.php‘; require ‘lib/QueryList.

實用爬蟲-02-爬蟲真正使用代理 ip

一是 .cn 失效天津代理服 git odi ner info 實用爬蟲-02-爬蟲真正使用代理 ip 因為這裏呢，是實用爬蟲，想要仔細學習一些基礎的，可以去查看： Python 爬蟲教程：https://www.cnblogs.com/xpwi/category/

大數據爬蟲為什麽要使用IP代理,代理IP的特點是什麽?

代理服務通過率禁止工作者一道網站解決效率比較大數據隨著互聯網的迅猛發展，大數據的應用，大數據樣本獲得需要通過數據爬蟲來實現，而爬蟲工作者一般都繞不過代理IP請添加鏈接描述這個問題，為什麽呢，這是因為在網絡爬蟲抓取信息的過程中，抓取頻率高過了目標網站的設置閥

如何搭建穩定的代理ip池, 供爬蟲使用

什麽 git 免費文章存在服務器根據代理服務器如何新型的代理ip池aox_proxy_pool 在這篇文章之前, 應該不少人都看過很多搭建代理ip池的文章, 然後發現都是坑, 無法使用。說的比較多的推薦買xx家的代理ip, 賊穩定, 好使(廣告) 抓取x

爬蟲代理IP

爬蟲獲取代理IP 之前說過，因為某些原因，IP被封了，所以回過頭排查了一下關於代理IP的問題。代理IP的作用代理IP簡單的來說，就是代替你訪問網站的IP，每臺電腦都有自己的IP，在從事爬蟲的時候，如果你直接使用自己的IP，被爬的網站檢測到，會很快的封掉你的IP，從事違法

python爬蟲爬取代理ip

最近想玩玩代理IP的刷東西怎麼實現的，所以來試試（生計所迫）這個是西刺免費代理IP http://www.xicidaili.com/ 不能保證都能用，所以爬取下來需要檢驗，用爬取的代理ip訪問網站，看狀態碼，是200就證明能用儲存到MongoDB

python之爬蟲的入門04------爬蟲代理ip、儲存為CSV表格

一、爬蟲偽裝—使用代理ip import urllib.request import random url = 'http://45.32.164.128/ip.php' #URL地址 iplist = ['1

爬蟲(cookie,代理IP)

相關推薦