【Python3爬蟲】12306爬蟲

阿新 • • 發佈：2018-11-01

此次要實現的目標是登入12306網站和檢視火車票資訊。

具體步驟

一、登入

登入功能是通過使用selenium實現的，用到了超級鷹來識別驗證碼。沒有超級鷹賬號的先註冊一個賬號，充值一點題分，然後把下載這個Python介面檔案，再在裡面新增一個use_cjy的函式，以後使用的時候傳入檔名就可以了（驗證碼型別和價格可以在價格體系檢視）：

1 def use_cjy(filename):
2     username = ""  # 使用者名稱
3     password = ""  # 密碼
4     app_id = ""  # 軟體ID
5     cjy = CJYClient(username, password, app_id)  # 
 使用者中心>>軟體ID
6     im = open(filename, 'rb').read()  # 本地圖片檔案路徑
7     return cjy.PostPic(im, 9004)  # 9004->驗證碼型別

然後進入12306的登入頁面，網址為https://kyfw.12306.cn/otn/login/init，可以看到有一個像下面這樣的驗證碼：

要破解這個驗證碼，第一個問題是怎麼得到這個驗證碼圖片，我們可以很輕鬆的找到這個驗證碼圖片的連結，但是如果用requests去請求這個連結，然後把圖片下載下來，這樣得到的圖片和網頁上的驗證碼圖片是不同的，因為每次請求都會重新整理一次驗證碼。所以需要換個思路，比如先把網頁截個圖，然後我們可以知道驗證碼圖片在網頁中的位置，然後再根據這個位置，把截圖相應的位置給截取出來，就相當於把驗證碼圖片從整個截圖中給摳出來了，這樣得到的驗證碼圖片就和網頁上的驗證碼一樣了。相關程式碼如下：

 1 # 定位到驗證碼圖片
 2 captcha_img = browser.find_element_by_xpath('//*[@id="loginForm"]/div/ul[2]/li[4]/div/div/div[3]/img')
 3 location = captcha_img.location
 4 size = captcha_img.size
 5 # 寫成我們需要擷取的位置座標
 6 coordinates = (int(location['x']), int(location['y']),
 7                int(location['x'] + size['width 
']), int(location['y'] + size['height']))
 8 browser.save_screenshot('screen.png')
 9 i = Image.open('screen.png')
10 # 使用Image的crop函式，從截圖中再次擷取我們需要的區域
11 verify_code_image = i.crop(coordinates)
12 verify_code_image.save('captcha.png')

現在已經得到了驗證碼圖片了，下一個問題是怎麼識別？點觸驗證碼識別起來有兩個難點，一個是文字識別，要把圖上的鞭炮文字識別出來，第二點是識別圖片中的內容，比如上圖就要把有鞭炮的圖片識別出來，而這兩個難點利用OCR技術都很那實現，因此選擇使用打碼平臺（比如超級鷹）來識別驗證碼。對於上面這個圖，在使用超級鷹識別之後會返回下面這個結果：

{'pic_id': '6048511471893900001', 'err_no': 0, 'err_str': 'OK', 'md5': 'bde1de3b886fe2019a252934874c6669', 'pic_str': '117,140'}

其中pic_str對應的值就是有鞭炮的圖片的座標位置（如果有多個座標，會用“|”進行分隔），我們對這個結果進行解析，把座標提取出來，再利用selenium模擬點選就可以了，相關程式碼如下：

 1 # 呼叫超級鷹識別驗證碼
 2 capture_result = use_cjy('captcha.png')
 3 print(capture_result)
 4 # 對返回的結果進行解析
 5 groups = capture_result.get("pic_str").split('|')
 6 points = [[int(number) for number in group.split(',')] for group in groups]
 7 for point in points:
 8     # 先定位到驗證圖片
 9     element = WebDriverWait(browser, 20).until(
10         EC.presence_of_element_located((By.CLASS_NAME, "touclick-bgimg")))
11     # 模擬點選驗證圖片
12     ActionChains(browser).move_to_element_with_offset(element, point[0], point[1]).click().perform()
13     sleep(1)

二、查詢

帶有車票資訊的ajax介面很容易找到，格式也是標準的json格式，解析起來會方便不少

但是爆儲存車票的字串很複雜，我們先把第一條資訊打印出來看看，以下是部分資訊：

'hH0qeKPBgl0X0aCnrtZFyBgzqydzV45U2M1r%2F32FsaPHeb7Mul00sIb7y9W%2B6df1tUdDGCxqdVs8%0Aw2VodSjdXjUQ2uNdwFprKdVK9iaW60Wj2jKpNKaViR4ndlBCjsYB0SIF
QR0pLksy7HDP0KcaoLe4%0A4RW6zRcscO7SRNJZOsF%2Fxj3Ooq76lzzdku3Uw957yjLFyf7ikixOaC%2FAOrLAwCc7y0krRpKJbSn3%0ApBsY%2F%2Fok%2Bmg2xNhXapoCPIt4w0p9',　　這段字元是隨機生成的，過幾秒就回失效。
 '39000D30280G',　　列車編號
 'D3028',　　車次
 'HKN',　　始發站
 'AOH',　　終點站
 'HKN',　　出發站
 'AOH',　　目的站
 '07:31',　　出發時間
 '13:06',　　到達時間
 '05:35',　　總耗時
 'Y',　　Y表示可以購票，N表示不可以
 '20181111',　　日期
後面基本都是座位的餘票資訊了。

對於提到的列車站點程式碼，可以通過請求這個連結，通過得到JS指令碼中的station_names變數獲取，對應的站點以@字元分隔，相關程式碼如下：

1 # 請求儲存列車站點程式碼的連結
2 res1 = requests.get("https://kyfw.12306.cn/otn/resources/js/framework/station_name.js")
3 # 把分割處理後的車站資訊儲存在station_data中
4 self.station_data = res1.text.lstrip("var station_names ='").rstrip("'").split('@')

 1 # 返回車站英文縮寫
 2  def get_station(self, city):
 3     for i in self.station_data:
 4         if city in i:
 5             return i.split('|')[2]
 6 
 7 # 返回車站中文縮寫
 8 def get_city(self, station):
 9     for i in self.station_data:
10         if station in i:
11             return i.split('|')[1]

完整程式碼已上傳到GitHub：https://github.com/QAQ112233/12306

【Python3爬蟲】12306爬蟲

具體步驟

一、登入

二、查詢

【Python3爬蟲】12306爬蟲

【Python3.6】糗事百科爬蟲

【Python3爬蟲】當爬蟲碰到表單提交，有點意思

【nodeJS爬蟲】前端爬蟲系列

【爬蟲】python爬蟲工具scrapy的安裝使用

【爬蟲】初學爬蟲，瞭解始末（概念類—更新中）

【Python學習】python爬蟲Google翻譯的實現

【爬蟲】Scrapy爬蟲框架教程-- 抓取AJAX非同步載入網頁

【Python學習】python爬蟲有道翻譯的實現

測驗與作業【第一週】網路爬蟲之規則

【Python3+VBA】在Excel中生成小姐姐

【Python3.6】：廖雪峰python教程轉換成 PDF

【Python3.6】將個人微信改造成機器人自動對話

【Python3.6】生成微信好友個性簽名詞雲

【資訊洩露】12306恐中招！400萬資料遭洩露，請儘快更改密碼！

【Python3-API】情感傾向分析示例程式碼

【python3.X】python學習中排雷過程^_^

【Bad Practice】12306 query

【Python3-API】通用文字識別示例程式碼

【Python3.6】python打包成exe

【Python3爬蟲】12306爬蟲

具體步驟

一、登入

二、查詢

相關推薦