如何用Python+人工識別處理知乎的倒立漢字驗證碼

阿新 • • 發佈：2019-02-03

目前知乎採用了“倒立漢字”驗證碼，如圖所示：

使用者需要點選圖片中所有的倒立漢字才能登陸知乎。

這給Python爬蟲的模擬登入帶來了一定的難度，目前網路上的相關資料針對的都是普通的“英文+數字”驗證碼，針對“倒立漢字”驗證碼的文章較少。而且大家普遍採用的是requests庫。經過幾天的研究，我採用urllib.request實現了模擬登陸知乎，現將程式碼分享如下：

# 登入知乎，通過儲存驗證圖片方式
import urllib.request
import urllib.parse
import time
import http.cookiejar

webUrl = "https://www.zhihu.com/login/email"#不能寫https://www.zhihu.com/#signin因為不支援重定向

webheader = {
    # 'Accept': 'text/html, application/xhtml+xml, */*',
    # 'Accept-Language': 'zh-CN',
    # 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko',
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36',
    # 'User-Agent': 'Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5',
    # 'DNT': '1',
    # 'Connection': 'Keep-Alive'
    }
    
postData = {
    'email': '在這裡寫你的賬號',
    'captcha_type': 'cn',
    'password': '在這裡寫你的密碼',
    '_xsrf': '',
    'captcha': ''
}
localStorePath = "寫你想儲存的驗證碼圖片的地址"

if __name__ == '__main__':
    #宣告一個CookieJar物件例項來儲存cookie
    cookie = http.cookiejar.CookieJar()
    #建立opener
    handler = urllib.request.HTTPCookieProcessor(cookie)
    opener = urllib.request.build_opener(handler)#建立opener物件，並新增頭資訊
    urllib.request.install_opener(opener) 
    
    captcha_url = 'https://www.zhihu.com/captcha.gif?r=%d&type=login&lang=cn' % (time.time() * 1000)
    # captcha_url = 'http://www.zhihu.com/captcha.gif?r=%d&type=login' % (time.time() * 1000)#這樣獲得的是“字母+數字驗證碼”

    #這個獲取驗證碼圖片的方法是不行的！
    # urllib.request.urlretrieve(captcha_url, localStorePath + 'myCaptcha.gif')
    
    #用urlopen函式儲存驗證圖片
    req = urllib.request.Request(url=captcha_url,headers=webheader)
    content = urllib.request.urlopen(req)
    # content = opener.open(req)
    captcha_name = 'D:/Python學習/crawler_learning/知乎登入專題研究/知乎驗證碼圖片/myNewCaptcha.gif'
    content = content.read()
    with open(captcha_name, 'wb') as f:
        f.write(content)
    
    postData['captcha'] = input('請輸入驗證碼')
    # postData['_xsrf'] = get_xsrf()
    postData['_xsrf'] = 'fa5ae712244bd4287e371801052003fc'
    print(postData['_xsrf'])
    
    #用urlopen函式傳送資料給伺服器實現登入
    postData_encoded = urllib.parse.urlencode(postData).encode('utf-8')
    req = urllib.request.Request(url=webUrl,data=postData_encoded,headers=webheader)
    webPage = urllib.request.urlopen(req)
    # webPage = opener.open(req)
    data = webPage.read().decode('utf-8')
    
    print(data)
    with open("D:/知乎伺服器反饋的內容.txt",mode='w',encoding='utf-8') as dataFile:
        dataFile.write(data)

網上的採用requests庫實現的程式碼連結：http://www.jianshu.com/p/50c5815bb60b#

幾點思考：

1、首先需要明確如何獲得驗證碼圖片的地址，利用Fiddler抓包獲得的典型的驗證碼圖片的地址如下：

https://www.zhihu.com/captcha.gif?r=1501679883167&type=login&lang=cn

這個“r”代表的是什麼含義呢？經過檢視知乎上的js程式碼可以確定，這個r指的是毫秒級的時間戳。

2、以驗證碼圖片地址https://www.zhihu.com/captcha.gif?r=1501679883167&type=login&lang=cn為例，不同時間訪問同一個驗證碼圖片地址，得到的驗證碼圖片是不同的，那麼知乎伺服器是如何知道你獲取的是那張驗證碼呢？

我認為是通過sessionID，換句話說，知乎把某個驗證碼圖片給了你，同時知乎記錄下了你的sessionID和這個驗證碼的“正確答案”，這樣將來你輸入驗證碼給知乎後，知乎就能判斷你輸入的驗證碼是否正確了。

由於sessionID儲存在cookie之中，所以Python模擬登陸的程式碼必須使用cookie。

3、獲取驗證碼圖片的時候，我用的是content =urllib.request.urlopen (req)函式，經過我的驗證，用

urllib.request.urlretrieve函式是不行的，因為urlopen函式可以傳遞headers引數，而這一個引數必須有。

4、獲得了倒立漢字圖片以後，如何確定要傳遞給知乎的captcha是什麼呢？經過Fiddler抓包，

傳遞的引數類似於這樣：

{"img_size":[200,44],"input_points":[[43.44,22.44],[115.72,22.44]]}

經過分析和試驗確定：200指的是圖片長度，44指的是圖片高度，後面的input_points指的是打在倒立漢字上的點的座標。由於每次出現7個漢字，這7個漢字的座標是固定的，我全部進行捕獲：

{"img_size":[200,44],"input_points":[[12.95,14.969999999999998],[36.1,16.009999999999998],[57.16,24.44],[84.52,19.17],[108.72,28.64],[132.95,24.44],[151.89,23.380000000000002]]}

然後，問題就簡單了：將圖片儲存在本地之後，開啟圖片，確定哪幾個漢字倒立，比如說第2個和第6個，那就在上面選取出2和6的座標輸入即可，即

{"img_size":[200,44],"input_points":[[36.1,16.009999999999998],[132.95,24.44]]}。

5、小竅門：以驗證碼圖片地址

https://www.zhihu.com/captcha.gif?r=1501679883167&type=login&lang=cn

去掉最後的&lang=cn或者換成&lang=en，驗證碼圖片就不是倒立漢字了，就變成了普通的“字母+數字”組合了，http://www.jianshu.com/p/50c5815bb60b#就是採用的這種驗證碼圖片，不過要注意的是，這個時候post的資料就要取消掉“'captcha_type': 'cn',”。

歡迎大家與我交流！

如何用Python+人工識別處理知乎的倒立漢字驗證碼

python爬蟲scrapy框架——人工識別登入知乎倒立文字驗證碼和數字英文驗證碼(2)

如何用Python+人工識別處理知乎的倒立漢字驗證碼

python爬蟲scrapy框架——人工識別知乎登入知乎倒立文字驗證碼和數字英文驗證碼

我用Python爬了7W知乎使用者資訊，終於爬獲了心儀小姐姐……

用Python挖一挖知乎上宅男們最喜歡的1000個妹子

人生苦短，我用Python--分分鐘下載知乎美圖給你看

Tesseract：識別知乎網站登入驗證碼

【2018.05.11】python3.6+selenium 知乎自動登入+驗證碼問題

用python寫一個搶票小程式(無驗證碼)

Python爬蟲倒立文字驗證碼登入知乎

用selenium模擬登陸知乎賬號，處理登陸介面隨機出現驗證碼視窗的問題

python爬蟲如何爬知乎的話題？

用python類方法處理參數

用Python做影象處理

python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

教你用Python做影象處理

用 Python 做資料處理必看：12 個使效率倍增的 Pandas 技巧（上下）

用python進行圖片處理和特徵提取

用 Python 做資料處理必看：12 個使效率倍增的 Pandas 技巧（上）

[轉載]用Python做資料處理必看的12 個使效率倍增的Pandas技巧

如何用Python+人工識別處理知乎的倒立漢字驗證碼

相關推薦