爬蟲之代理、亂碼、驗證碼

阿新 • • 發佈：2019-01-10

代理

爬蟲中為什麼需要使用代理

一些網站會有相應的反爬蟲措施，例如很多網站會檢測某一段時間某個IP的訪問次數，如果訪問頻率太快以至於看起來不像正常訪客，它可能就會會禁止這個IP的訪問。
所以我們需要設定一些代理IP，每隔一段時間換一個代理IP，就算IP被禁止，依然可以換個IP繼續爬取。

代理的分類

正向代理：代理客戶端獲取資料。正向代理是為了保護客戶端防止被追究責任。
反向代理：代理伺服器提供資料。反向代理是為了保護伺服器或負責負載均衡。

免費代理ip提供網站

http://www.goubanjia.com/

西祠代理

快代理

簡單運用示例

import requests
# ip 代理網站  http: 
//www.goubanjia.com/
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}
url = 'https://www.baidu.com/s?wd=ip'

page_text = requests.get(url=url,headers=headers,proxies={'https':'212.119.229.18:33852'}).text
# print(page_text)
with open( 
'./ip.html','w',encoding = 'utf-8') as f:
    f.write(page_text)
    
# proxy = [{},{},{}]   代理池的使用

亂碼

import requests
from urllib import request
from lxml import etree

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36 
',
    'Connection':'close'
}

url = "http://pic.netbian.com/4kmeinv/"
response = requests.get(url,headers)
response.encoding = 'gbk'
# print(response.encoding)  
page_text = response.text
# print(page_text)

tree = etree.HTML(page_text)
li_list = tree.xpath('//div[@class="slist"]/ul/li')
for li in li_list:
    img_src = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0]
    img_name = li.xpath('./a/img/@alt')[0]
#     img_name = img_name.encode('gbk').decode('utf-8')
#     img_name = img_name.encode('ISO-8859-1').decode('gbk')
#    ISO-8859-1 範圍 大於  gbk  大於 utf-8
    print(img_src,img_name)

驗證碼

1. 雲打碼平臺

需要雲打碼平臺線上解析驗證碼

1.官方下載的  不用動  直接載入就可以

import http.client, mimetypes, urllib, json, time, requests

######################################################################

class YDMHttp:

    apiurl = 'http://api.yundama.com/api.php'
    username = ''
    password = ''
    appid = ''
    appkey = ''

    def __init__(self, username, password, appid, appkey):
        self.username = username  
        self.password = password
        self.appid = str(appid)
        self.appkey = appkey

    def request(self, fields, files=[]):
        response = self.post_url(self.apiurl, fields, files)
        response = json.loads(response)
        return response
    
    def balance(self):
        data = {'method': 'balance', 'username': self.username, 'password': self.password, 'appid': self.appid, 'appkey': self.appkey}
        response = self.request(data)
        if (response):
            if (response['ret'] and response['ret'] < 0):
                return response['ret']
            else:
                return response['balance']
        else:
            return -9001
    
    def login(self):
        data = {'method': 'login', 'username': self.username, 'password': self.password, 'appid': self.appid, 'appkey': self.appkey}
        response = self.request(data)
        if (response):
            if (response['ret'] and response['ret'] < 0):
                return response['ret']
            else:
                return response['uid']
        else:
            return -9001

    def upload(self, filename, codetype, timeout):
        data = {'method': 'upload', 'username': self.username, 'password': self.password, 'appid': self.appid, 'appkey': self.appkey, 'codetype': str(codetype), 'timeout': str(timeout)}
        file = {'file': filename}
        response = self.request(data, file)
        if (response):
            if (response['ret'] and response['ret'] < 0):
                return response['ret']
            else:
                return response['cid']
        else:
            return -9001

    def result(self, cid):
        data = {'method': 'result', 'username': self.username, 'password': self.password, 'appid': self.appid, 'appkey': self.appkey, 'cid': str(cid)}
        response = self.request(data)
        return response and response['text'] or ''

    def decode(self, filename, codetype, timeout):
        cid = self.upload(filename, codetype, timeout)
        if (cid > 0):
            for i in range(0, timeout):
                result = self.result(cid)
                if (result != ''):
                    return cid, result
                else:
                    time.sleep(1)
            return -3003, ''
        else:
            return cid, ''

    def report(self, cid):
        data = {'method': 'report', 'username': self.username, 'password': self.password, 'appid': self.appid, 'appkey': self.appkey, 'cid': str(cid), 'flag': '0'}
        response = self.request(data)
        if (response):
            return response['ret']
        else:
            return -9001

    def post_url(self, url, fields, files=[]):
        for key in files:
            files[key] = open(files[key], 'rb');
        res = requests.post(url, files=files, data=fields)
        return res.text

2.普通使用者的呼叫

def get_code_text(code_type,img_path):
    # 使用者名稱
    username    = '普通使用者賬號

    # 密碼
    password    = 普通使用者密碼                           

    # 軟體ＩＤ，開發者分成必要引數。登入開發者後臺【我的軟體】獲得！
    appid       = 6578                                     

    # 軟體金鑰，開發者分成必要引數。登入開發者後臺【我的軟體】獲得！
    appkey      = '2b3ef98633145e0b478800905af4e10b'    

    # 圖片檔案
    filename    = img_path                        

    # 驗證碼型別，# 例：1004表示4位字母數字，不同型別收費不同。請準確填寫，否則影響識別率。在此查詢所有型別 http://www.yundama.com/price.html
    codetype    = code_type  # 1004

    # 超時時間，秒
    timeout     = 25                              

    # 檢查
    if (username == 'username'):
        print('請設定好相關引數再測試')
    else:
        # 初始化
        yundama = YDMHttp(username, password, appid, appkey)

        # 登陸雲打碼
        uid = yundama.login();
        print('uid: %s' % uid)

        # 查詢餘額
        balance = yundama.balance();
        print('balance: %s' % balance)

        # 開始識別，圖片路徑，驗證碼型別ID，超時時間（秒），識別結果
        cid, result = yundama.decode(filename, codetype, timeout);
        print('cid: %s, result: %s' % (cid, result))
        return result

模擬登陸後抓取個人資訊資料

import requests
from lxml import etree
from urllib import request


# 獲取一個session物件
session = requests.Session()
#session物件和requests作用幾乎一樣,都可以進行請求的傳送,並且請求傳送的方式也是一致的,
#session進行請求的傳送,如果會產生cookie的話,則cookie會自動被儲存到session物件中


#1 獲取驗證碼圖片
url = 'http://www.renren.com/'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}

page_text = session.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
code_img_src = tree.xpath('//*[@id="verifyPic_login"]/@src')[0]
request.urlretrieve(url=code_img_src,filename='./code.jpg')  # 儲存到本地

code = get_code_text('2004','./code.jpg')  # 獲取驗證碼文字資訊

# 模擬登陸
login_url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2019031945879'
# data資訊需要抓包工具 獲取 
data = {
    "email":人人賬號,
    "icode":code if code else '',
    "origURL":"http://www.renren.com/home",
    "domain":"renren.com",
    "key_id":"1",
    "captcha_type":"web_login",
    "password":通過抓包工具獲取對應賬號的加密密碼,
    "rkey":"d4287c72b3f7ddf41b62170adec10265",
    "f":"http%3A%2F%2Fwww.renren.com%2F969397225",
}

print(session)
#進行登入,當登入成功之後,可以獲取cookie
response = session.post(url=login_url,headers=headers,data=data)  # 

#對登入成功後對應的當前使用者的個人詳情頁進行請求傳送
detail_url = "http://www.renren.com/969397225/profile"  # 個人資訊網址 
page_text = session.get(url=detail_url,headers=headers).text


with open('./renren.html','w',encoding='utf-8') as fp:
    fp.write(page_text)
    print('over')

古詩網

第一步和人人一樣呼叫雲打碼

主程式碼

import requests
from lxml import etree
from urllib import request

# 獲取一個session物件
session = requests.Session()
#session物件和requests作用幾乎一樣,都可以進行請求的傳送,並且請求傳送的方式也是一致的,
#session進行請求的傳送,如果會產生cookie的話,則cookie會自動被儲存到session物件中

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}

url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'

page_text = requests.get(url=url,headers=headers).text
# print(page_text)
tree = etree.HTML(page_text)
code_img_src =  'https://so.gushiwen.org' + tree.xpath('//*[@id="imgCode"]/@src')[0]  # 獲取驗證碼生成地址

img_data = session.get(url=code_img_src,headers=headers).content
# print(img_data)


with open('./gushi.jpg',"wb") as fp:
    fp.write(img_data)
code_text = get_code_text('1004','./gushi.jpg')
print(code_text)

# 每次訪問都會修改    每次訪問都獲取依稀
__VIEWSTATE = tree.xpath('//*[@id="__VIEWSTATE"]/@value')[0]  
__VIEWSTATEGENERATOR = tree.xpath('//*[@id="__VIEWSTATEGENERATOR"]/@value')[0]


login_url = "https://so.gushiwen.org/user/login.aspx?from=http%3a%2f%2fso.gushiwen.org%2fuser%2fcollect.aspx"
data = {
    "__VIEWSTATE":__VIEWSTATE,  # 動態獲取
    "__VIEWSTATEGENERATOR":__VIEWSTATEGENERATOR,  # 動態獲取
    "from":"http://so.gushiwen.org/user/collect.aspx",
    "email":"古詩文網站好",
    "pwd":"古詩文網的密碼.",
    "code":code_text,
    "denglu":"登入",
}

page_text = session.post(url=login_url,headers=headers,data=data).text
with open('./gushiwen.html','w',encoding='utf-8') as fp:
    fp.write(page_text)
    print('ok')

爬蟲之代理、亂碼、驗證碼

代理爬蟲中為什麼需要使用代理一些網站會有相應的反爬蟲措施，例如很多網站會檢測某一段時間某個IP的訪問次數，如果訪問頻率太快以至於看起來不像正常訪客，它可能就會會禁止這個IP的訪問。所以我們需要設定一些代理IP，每隔一段時間換一個代理IP，就算IP被禁止，依然可以換個IP繼續爬取。代理的分

Django之快取、訊號和驗證碼

一、快取 1、介紹快取通俗來說：就是把資料先儲存在某個地方，下次再讀取的時候不用再去原位置讀取，讓訪問速度更快。快取機制圖解 2、Django中提供了6種快取方式　　1. 開發除錯　　2. 記憶體　　3. 檔案　　4. 資料庫　　5. Memcache快取（p

5、簡單隨機驗證碼的生成練習

for 設定 src png log 大寫 cnblogs style 驗證 import random # 設定一個空字符串 st = "" # 遍歷6次函數 for i in range(6): # 設定一個隨機變量0或1 i1 = random.ra

Python爬蟲學習筆記之微信宮格驗證碼的識別(存在問題)

依次返回結果 ptc 接下來 clas 軌跡 self top http 本節我們將介紹新浪微博宮格驗證碼的識別。微博宮格驗證碼是一種新型交互式驗證碼，每個宮格之間會有一條指示連線，指示了應該的滑動軌跡。我們要按照滑動軌跡依次從起始宮格滑動到終止宮格，才可以完成驗證，

深入淺出爬蟲之道： Python、Golang與GraphQuery的對比

本文將分別使用 Python ，Golang 以及 GraphQuery 來解析某網站的素材詳情頁面，這個頁面的特色是具有清晰的資料結構，但是DOM結構不夠規範，無法通過單獨的選擇器定位頁面元素，對頁面的解析造成了一些曲折。通過這個頁面的解析過程，深入淺出的瞭解爬蟲的解析思想與這些語言之間的異同。

Laravel實現小程式使用openid登陸、手機號驗證碼登陸、賬戶密碼登陸三種登陸方式

目前開發小程式，按需求要實現3種登陸方式： 1、微信授權登陸 2、賬戶密碼登陸 3、手機號、驗證碼登陸我使用laravel自帶的Auth認證機制，通過attempt方法進行賬戶驗證，但是預設的認證機制必須包含password欄位，而我的第1、3種登陸方式都沒有

# 深入淺出爬蟲之道： Python、Golang與GraphQuery的對比

深入淺出爬蟲之道： Python、Golang與GraphQuery的對比本文將分別使用 Python ，Golang 以及 GraphQuery 來解析某網站的素材詳情頁面，這個頁面的特色是具有清晰的資料結構，但是DOM結構不夠規範，無法通過單獨的選擇器定位頁面元素，對頁面的解析造成了一些曲折。通過這

Spring Security、實現圖形驗證碼功能、實現"記住我"功能

說在前面博主最近會有很多專案跟大家一起分享,做完後會上傳github上的,希望讀友們能給博主提提意見哈哈這個專案是第三方登入和安全方面的,關於後臺與a

python初級實戰系列教程《一、爬蟲之爬取網頁、圖片、音視訊》

python基礎知識可以到廖雪峰大佬的官網學習哦！廖雪峰官網網址學完python就開始我們的實戰吧！首先我們就來學習下python爬蟲學習Python爬蟲，先是介紹一個最容易上手的庫urll

SSM 實訓筆記 -10- 使用 sessionStorage 儲存資料、js 圖片驗證碼、登入載入動畫

SSM 實訓筆記 -10- 使用 sessionStorage 儲存資料、js 圖片驗證碼、登入載入動畫本篇內容：（1）在登入成功時，使用 sessionStorage 儲存使用者的使用者名稱，並在登入成功後的首頁上展示使用者名稱。（2）js 圖片驗證碼，使用 js 和

Django筆記（Django郵件傳送、Django郵箱驗證碼實現）

1.settings.py 配置注意：要開啟IMAP服務才能傳送郵件，在郵箱設定裡的賬戶設定中 # 郵件配置 EMAIL_USE_SSL = True EMAIL_HOST = 'smtp.qq.com' # 如果是 163 改成 smtp.163.co

Win7下安裝Python影象處理庫PIL、pytesser、tesseract進行驗證碼識別

前言今天看見一個關於Python進行驗證碼識別的文章，其中程式碼很短，但是感覺很有趣，加上最近也在學習一些簡單的Python知識，所以決定實驗一下準備工作 PIL版本選擇從網上搜索得知，PIL官方只有32位的安裝檔案，安裝時會提示找不到py

前端驗證碼倒計時、後臺傳送驗證碼、創藍簡訊介面

前端程式碼：倒計時 <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8"> <title></title>

python爬蟲之多執行緒、多程序+程式碼示例

#python爬蟲之多執行緒、多程序 >使用多程序、多執行緒編寫爬蟲的程式碼能有效的提高爬蟲爬取目標網站的效率。 ## 一、什麼是程序和執行緒引用[廖雪峰的官方網站](https://www.liaoxuefeng.com/wiki/1016959663602400/1017627212385376)

[Python][爬蟲]利用OCR技術識別圖形驗證碼

releases 查找表方法 jpg threshold tex ima 輸出 sim ocr圖片識別通常可以利用tesserocr模塊，將圖片中內容識別出來並轉換為text並輸出 Tesserocr是python的一個OCR識別庫，是對tesseract做的一層pyth

網路爬蟲以及自動化測試中圖形驗證碼識別解決思路以及方法

前言做自動化測試的朋友都知道圖形驗證碼在整個自動化執行過程中，很可能是阻礙推進的問題，可以採用萬能驗證碼（開發哥哥會流出一個供自動化測試用的），如果不通過開發預留，有以下解決方案。解決思路 1.python3自帶光學字元識別模組tesserocr與pytesseract，可以識別簡單驗證碼； 2.稍

作業系統、亂碼、驅動、鍵盤失靈、win7

今天碰到了亂碼問題，原因是驅動引起。鍵盤的shift鍵組合部分失靈了，就去重灌驅動，然後不知道為何驅動人生有BUG，莫名其妙就把滑鼠驅動刪了又裝，於是就悲劇了，一大波亂碼。問題變得更麻煩，找不到解決辦法就換了鍵盤重灌一個鍵盤驅動，（可能這個驅動有問題）引發系統檔案amd_xata.sys數字簽名無法

模擬登陸之豆瓣（手動輸入驗證碼）

from lxml import etree import requests from PIL import Image session=requests.session() def get_html(url,uname,password,zym,va): t

140 亂碼處理驗證碼, session

1 亂碼處理: import requests from lxml import etree headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like G

Android—串列埠相關（2.串列埠除錯時出現的亂序、亂碼、缺資料問題）

自己在開發除錯過程中走了很多的坑，找了很多的文章，總結起來希望以後再碰到的時候能想起來，其中參考了大佬的相關回答：大佬的連結使用谷歌的串列埠除錯工具有時會出現亂序和亂碼以及缺資料的現象亂序問題有以下幾種出現的可能：1.在配置相關串列埠時配置了多個串列埠原因：導致多個串列埠同時

爬蟲之代理、亂碼、驗證碼

代理

亂碼

驗證碼

相關推薦