1. 程式人生 > >比12306快!用Python寫一個火車票檢視器~

比12306快!用Python寫一個火車票檢視器~

0?wx_fmt=gif&wxfrom=5&wx_lazy=1

當你準備出去玩,想查詢一下火車票資訊的時候,還在用12306官網嗎?下面我們用 Python 寫一個命令列版的火車票檢視器, 只要在命令列敲一行命令就能獲得你想要的火車票資訊!

一、實驗簡介

1.1 知識點

  • Python3 基礎知識的綜合運用

  • docopt、requests 及 prettytable 庫的使用

  • setuptools 的使用

1.2 效果截圖

?wxfrom=5&wx_lazy=1

二、介面設計

讓我們先給這個小應用起個名字吧,既然及查詢票務資訊,那就叫它tickets好了。我們希望使用者只要輸入出發站,到達站以及日期就讓就能獲得想要的資訊,所以tickets應該這樣被使用:

$ tickets from to date

另外,火車有各種型別,高鐵、動車、特快、快速和直達,我們希望可以提供選項只查詢特定的一種或幾種的火車,所以,我們應該有下面這些選項:

  • -g 高鐵

  • -d 動車

  • -t 特快

  • -k 快速

  • -z 直達

這幾個選項應該能被組合使用,所以,最終我們的介面應該是這個樣子的:

$ tickets [-gdtkz] from to date

介面已經確定好了,剩下的就是實現它了。

三、程式碼實現

寫Python程式的一個良好實踐是使用virtualenv這個工具建一個虛擬的環境。我們的程式使用Python3開發,下面在你的工作目錄下建一個資料夾tickets,進去建立一個虛擬環境並啟用它:

$ virtualenv -p /usr/bin/python3 venv$ . venv/bin/activate

安裝一下實驗需要用到的庫:

$ sodo pip install requests prettytable docopt
  • requests, 不用不多介紹了吧,使用 Python 訪問 HTTP 資源的必備庫。

  • docopt, Python3 命令列引數解析工具。

  • prettytable, 格式化資訊列印工具,能讓你像 MySQL 那樣列印資料。

3.1 解析引數

Python有很多寫命令列引數解析工具,如 argparse, docopt, click,這裡我們選用的是 docopt 這個簡單易用的工具。

docopt 可以按我們在文件字串中定義的格式來解析引數,比如我們在 tickets.py:

# coding: utf-8
"""Train tickets query via command-line.

Usage:
   tickets [-gdtkz] <from> <to> <date>

Options:
   -h,--help   顯示幫助選單
   -g          高鐵
   -d          動車
   -t          特快
   -k          快速
   -z          直達

Example:
   tickets 上海 北京
 2017-12-05
""
from docopt import docopt

def cli():
   """command-line interface"""
   arguments = docopt(__doc__)
   print(arguments)

if __name__ == '__main__':
   cli()

下面我們執行一下這個程式:

$ python3 tickets.py 上海 北京 2017-12-05

我們得到下面的結果:

{'-d': False, '-g': False, '-k': False, '-t': False, '-z': False, '<date>': '2017-12-05', '<from>': '上海', '<to>': '北京'}

3.2 獲取資料

引數已經解析好了,下面就是如何獲取資料了,這也是最主要的部分。首先我們開啟12306,進入餘票查詢頁面,如果你使用 Chrome,那麼按 F12 開啟開發者工具,選中 Network 一欄,在查詢框鍾我們輸入 上海 到 北京,日期 2017-12-05, 點選查詢,我們在除錯工具發現,查詢系統實際上請求了這個URL:

https://kyfw.12306.cn/otn/lcxxcx/query?purpose_codes=ADULT&queryDate=2017-12-05&from_station=SHH&to_station=BJP

並且返回的是JSON格式的資料!

接下來問題就簡單了,我們只需要構建請求URL然後解析返回的Json資料就可以了。但是我們發現,URL裡面 from_station 和 to_station 並不是漢字或者拼音,而是一個代號,而我們想要輸入的是漢字或者拼音,我們要如何獲取代號呢?我們開啟網頁原始碼看看有沒有什麼發現。

果然,我們在網頁裡面找到了這個連結:https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.8955 這裡面貌似是包含了所有車站的中文名,拼音,簡寫和代號等資訊。但是這些資訊擠在一起,而我們只想要車站的拼音和大寫字母的代號資訊,怎麼辦呢?

正則表示式就是答案,我們寫個小指令碼來匹配提取出想要的資訊吧, 在parse_station.py中:

# coding: utf-8import reimport requestsfrom pprint import pprinturl = 'https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.8955'text = requests.get(url, verify=False)stations = re.findall(r'([A-Z]+)\|([a-z]+)', text)stations = dict(stations)stations = dict(zip(stations.values(), stations.keys()))pprint(stations, indent=4)

注意,上面的正則表示式匹配出的結果轉為字典後,字典的鍵是大寫字母大號,這顯然不是我們想要的結果,於是,我們通過一個變換將鍵值反過來。

我們執行這個指令碼,它將以字典的形式返回所有車站和它的大寫字母代號, 我們將結果重定向到 stations.py 中,

$ python3 parse_station.py > stations.py

我們為這個字典加名字,stations,然後輸入車站的中文名,我們就可以直接從這個字典中獲取它的字母程式碼了:

...

from stations import stations

def cli():

   arguments = docopt(__doc__)

   from_staion = stations.get(arguments['<from>'])

   to_station = stations.get(arguments['<to>'])

   date = arguments['<date>']

   # 構建URL

   url = 'https://kyfw.12306.cn/otn/lcxxcx/query?purpose_codes=ADULT&queryDate={}&from_station={}&to_station={}'.format(

       date, from_staion, to_station

   )

萬事俱備,下面我們來請求這個URL獲取資料吧!這裡我們使用 requests 這個庫, 它提供了非常簡單易用的介面,

...
import requests

def cli():
   ...
   # 新增verify=False引數不驗證證書
   r = requests.get(url, verify=False)
   print(r.json())
從結果中,我們可以觀察到,與車票有關的資訊需要進一步提取:def cli():
   ...
   r = requsets.get(url);
   rows = r.json()['data']['datas']

3.3 解析資料

我們封裝一個簡單的類來解析資料:

from prettytable import PrettyTableclass TrainCollection(object):    # 顯示車次、出發/到達站、 出發/到達時間、歷時、一等坐、二等坐、軟臥、硬臥、硬座    header = 'train station time duration first second softsleep hardsleep hardsit'.split()    def __init__(self, rows):        self.rows = rows    def _get_duration(self.row):        """        獲取車次執行時間        """        duration = row.get('lishi').replace(':', 'h') + 'm'        if duration.startswith('00'):            return duration[4:]        if duration.startswith('0'):            return duration[1:]        return duration    @property    def trains(self):        for row in self.rows:            train = [                # 車次                row['station_train_code'],                # 出發、到達站           '\n'.join([row['from_staion_name'], row['to_station_name']]),                # 出發、到達時間                '\n'.join([row['start_time'], row['arrive']]),                # 歷時                self._get_duration(row),                # 一等坐                row['zy_num'],                # 二等坐                row['ze_num'],                # 軟臥                row['rw_num'],                # 軟坐                row['yw_num'],                # 硬坐                row['yz_num']            ]            yield train    def pretty_print(self):        """        資料已經獲取到了,剩下的就是提取我們要的資訊並將它顯示出來。        `prettytable`這個庫可以讓我們它像MySQL資料庫那樣格式化顯示資料。        """        pt = PrettyTable()        # 設定每一列的標題        pt._set_field_names(self.header)        for train in self.trains:            pt.add_row(train)        print(pt)

3.4 顯示結果

最後,我們將上述過程進行彙總並將結果輸出到螢幕上:

...class TrainCollection:    ...    ...  def cli():    arguments = docopt(__doc__)    from_staion = stations.get(arguments['<from>'])    to_station = stations.get(arguments['<to>'])    date = arguments['<date>']    # 構建URL    url = 'https://kyfw.12306.cn/otn/lcxxcx/query?purpose_codes=ADULT&queryDate={}&from_station={}&to_station={}'.format(        date, from_staion, to_station    )    r = requests.get(url, verify=False)    rows = r.json()['data']['datas']    trains = TrainCollection(rows)    trains.pretty_print()if __name__ == '__main__':    cli()

以上就是今天的實驗啦,各位同學可以自己試一試喲~

分享朋友圈 也是另一種讚賞

The more we share, The more we have

歡迎加入資料君高效資料分析社群

加我私人微信進入大資料乾貨群:tongyuannow 

640?wx_fmt=jpeg

目前100000+人已關注加入我們

640.jpeg? 0.gif? 0.gif? 0.gif? 0.gif? 0.gif? 0.gif? 0.gif?

0.gif? 0.gif? 0.gif? 0.gif? 0.gif? 0.gif? 0.gif? 0.gif?

640?wx_fmt=jpeg