使用python2爬取有道翻譯

阿新 • • 發佈：2018-06-17

驗證碼傳輸 5.0 translate 技術 pri nec orm lib

爬蟲的核心思想：模擬瀏覽器正常訪問服務器，一般情況只要瀏覽器能訪問的，都可以爬，如果被反爬，則考慮反復測試添加Request Header數據，知道可以爬取為止。

反爬思路目前知道的有：User-Agent，Cookie，Referer，訪問速度，驗證碼，用戶登錄及前端js代碼驗證等。本例遇到js驗證 User-Agent Referer Cookie共計4種反爬機制。

關鍵部分是，參數headers和data的構造，headers要進行反復測試，data數據裏面的變量查找思路。

參考資料：

用Python破解有道翻譯反爬蟲機制 https://blog.csdn.net/nunchakushuang/article/details/75294947

python破解網易反爬蟲機制 https://blog.csdn.net/luosai19910103/article/details/79522067

一些反爬機制 https://blog.csdn.net/javakklam/article/details/79841901

有道翻譯頁面，左邊輸入要翻譯的字符串，右邊會自動輸出翻譯的結果，如下圖

技術分享圖片

經過多次輸入字符測試，發現頁面無刷新，猜測可能使用ajax，然後進行抓包分析，發現的確使用ajax傳輸數據

技術分享圖片

代碼如下：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib
import urllib2
import time
import hashlib


url = ‘http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule‘
keyword = raw_input(‘請輸入要翻譯的字符串： ‘)

# headers作用模擬瀏覽器
headers = {
# "Accept": "application/json, text/javascript, */*; q=0.01",
# "Connection": "keep-alive",
# "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
"Cookie": "你的瀏覽器cookie值",
"Referer": "http://fanyi.youdao.com/",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36",
# "X-Requested-With": "XMLHttpRequest",
}

salt = str(int(time.time()*1000))

m = hashlib.md5()
str = "fanyideskweb" + keyword + salt + "ebSeFb%=XZ%T[KZ)c(sy!"
m.update(str)
sign = m.hexdigest().encode(‘utf-8‘)
print(sign)

# data為post請求數據
data = {
    "i":keyword,
    "from":"AUTO",
    "to":"AUTO",
    "smartresult":"dict",
    "client":"fanyideskweb",
    "salt":salt,
    "sign":sign,
    "doctype":"json",
    "version":"2.1",
    "keyfrom":"fanyi.web",
    "action":"FY_BY_REALTIME",
    "typoResult":"false"
}

# 對post上傳的數據進行urlencode編碼
data = urllib.urlencode(data)

# urllib 僅可以接受URL，不能創建 Request 類實例，也不能設置參數headers ，但可以對url進行編碼，而urllib2不能編碼，所以經常一起使用
# 而urllib2.urlopen(url)不能構造復雜的request，所以要使用urllib2.Request(url,data=data,headers=headers)，2者都是有data參數時表示post提交數據，headers的值為模仿瀏覽器請求頭裏面的的數據，格式為字典，讓服務器接受的數據看起來像使用瀏覽器訪問。
request = urllib2.Request(url,data=data,headers=headers)
response = urllib2.urlopen(request)
print(response.read())

代碼測試，如下圖

技術分享圖片

使用python2爬取有道翻譯

驗證碼傳輸 5.0 translate 技術 pri nec orm lib 爬蟲的核心思想：模擬瀏覽器正常訪問服務器，一般情況只要瀏覽器能訪問的，都可以爬，如果被反爬，則考慮反復測試添加Request Header數據，知道可以爬取為止。反爬思路目前知道的有：User

使用python2爬取有道翻譯

使用python2爬取有道翻譯

用python爬取有道翻譯遇到反爬，3分鐘反反爬繞過其反爬

python爬取有道翻譯出錯 {‘errorcode’:50}

python3爬取有道雲翻譯

爬蟲——爬取有道詞典

Python爬取有道字典出現錯誤 {‘errorcode’:50}

Python爬取有道詞典

有道翻譯——爬取

有道翻譯爬取程式碼

爬有道翻譯

Python 爬蟲：簡單的爬有道翻譯

Java接口測試之使用有道翻譯API

Android應用記錄一：有道翻譯API調用

獲取有道翻譯頁面

我跟有道翻譯幹起來了

Python3網絡爬蟲(二)：利用urllib.urlopen向有道翻譯發送數據獲得翻譯結果

微信公眾號的文章爬取有三種方式

python爬取百度翻譯返回：{'error': 997, 'from': 'zh', 'to': 'en', 'query 問題

selenium之百度搜索+有道翻譯的簡單testcase執行-----用例報告（HTMLTestRunner）

【Python3爬蟲】有道翻譯

使用python2爬取有道翻譯

相關推薦