1. 程式人生 > 實用技巧 >教你Python 爬取某榮耀全套面板

教你Python 爬取某榮耀全套面板

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

以下文章來源於騰訊雲,作者:Python小二


一、分析需要爬取的網站

①、開啟官方王者榮耀桌布網站

網站地址:https://pvp.qq.com/web201605/wallpaper.shtml

②、快捷鍵F12,調出控制檯進行抓包

③、找到正確的連結並分析

④、檢視返回資料格式

⑤、解析url連結

⑥、檢視url內容是否是所需圖片,發現其實是縮圖

⑦、那就去分析網站,隨便點開一張桌布,檢視指定格式的連結

⑧、找到目標地址

⑨、分析目標連結和縮圖的連結區別

  • 縮圖:http://shp.qpic.cn/ishow/2735090714/1599460171_84828260_8311_sProdImgNo_6.jpg/200
  • 目標圖:http://shp.qpic.cn/ishow/2735090714/1599460171_84828260_8311_sProdImgNo_6.jpg/0
  • 可以知道,將指定格式的縮圖地址後面200替換成0就是目標真實圖片

二、爬蟲程式碼

①、至此,爬蟲分析完成,爬蟲完整程式碼如下
#!/usr/bin/env python
# encoding: utf-8
'''
#------------------------------------------------------------------- # CONFIDENTIAL --- CUSTOM STUDIOS #------------------------------------------------------------------- # # @Project Name : 王者榮耀桌布下載 # # @File Name : main.py # # @Programmer : Felix # # @Start Date : 2020/7/30 14:42 # # @Last Update : 2020/7/30 14:42 # #-------------------------------------------------------------------
''' import os, time, requests, json, re from retrying import retry from urllib import parse class HonorOfKings: ''' This is a main Class, the file contains all documents. One document contains paragraphs that have several sentences It loads the original file and converts the original file to new content Then the new content will be saved by this class ''' def __init__(self, save_path='./heros'): self.save_path = save_path self.time = str(time.time()).split('.') self.url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page={}&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=%s' % self.time[0] def hello(self): ''' This is a welcome speech :return: self ''' print("*" * 50) print(' ' * 18 + '王者榮耀桌布下載') print(' ' * 5 + '作者: Felix Date: 2020-05-20 13:14') print("*" * 50) return self def run(self): ''' The program entry ''' print('' * 20 + ' 格式選擇: ' + '' * 20) print('1.縮圖 2.1024x768 3.1280x720 4.1280x1024 5.1440x900 6.1920x1080 7.1920x1200 8.1920x1440') size = input('請輸入您想下載的格式序號,預設6:') size = size if size and int(size) in [1,2,3,4,5,6,7,8] else 6 print('---下載開始...') page = 0 offset = 0 total_response = self.request(self.url.format(page)).text total_res = json.loads(total_response) total_page = --int(total_res['iTotalPages']) print('---總共 {} 頁...' . format(total_page)) while True: if offset > total_page: break url = self.url.format(offset) response = self.request(url).text result = json.loads(response) now = 0 for item in result["List"]: now += 1 hero_name = parse.unquote(item['sProdName']).split('-')[0] hero_name = re.sub(r'[【】:.<>|·@#$%^&() ]', '', hero_name) print('---正在下載第 {} 頁 {} 英雄 進度{}/{}...' . format(offset, hero_name, now, len(result["List"]))) hero_url = parse.unquote(item['sProdImgNo_{}'.format(str(size))]) save_path = self.save_path + '/' + hero_name save_name = save_path + '/' + hero_url.split('/')[-2] if not os.path.exists(save_path): os.makedirs(save_path) if not os.path.exists(save_name): with open(save_name, 'wb') as f: response_content = self.request(hero_url.replace("/200", "/0")).content f.write(response_content) offset += 1 print('---下載完成...') @retry(stop_max_attempt_number=3) def request(self, url): ''' Send a request :param url: the url of request :param timeout: the time of request :return: the result of request ''' response = requests.get(url, timeout=10) assert response.status_code == 200 return response if __name__ == "__main__": HonorOfKings().hello().run()

②、詳細分析連結
  • 其實前端傳送的是jsonp請求,這樣的資料在python不好處理,因為不是標準的json格式
  • 因為其前面JQuery1710418919222這個字串,而知道jsonp的請求的都知道,有這個字首,必然請求連結中有相同的callback引數,將其刪除即可
  • 因此我python程式碼中是刪除了這個引數的
  • 這個連結還有很多引數,其實我覺得很多都可以刪除,但是我懶得慢慢去試
  • 這個請求連結中最重要的一個引數必然就是頁碼數,也就是page這個引數,iListNum=20&totalpage=0&page={}
  • 上面的三個引數是可用的,一個是20,指每頁的數量,totalpage估計沒啥用,page抓包發現是從0開始的,這個需要注意一下,因為下面程式碼需要將總頁數減1
self.url = 'https://apps.game.qq.com/cgi-bin/ams/module/ishow/V1.0/query/workList_inc.cgi?activityId=2735&sVerifyCode=ABCD&sDataType=JSON&iListNum=20&totalpage=0&page={}&iOrder=0&iSortNumClose=1&iAMSActivityId=51991&_everyRead=true&iTypeId=2&iFlowId=267733&iActId=2735&iModuleId=2735&_=%s' % self.time[0]

③、格式選擇
  • 開始執行時,讓你選擇想下載格式的序號,為什麼是8個格式呢,看原網頁就知道了,8種不同解析度的
  • 看上面的圖片,縮圖連結有1-8,對應了8中解析度的縮圖,那麼原圖必然也是8種
  • 這裡我預設1920*1080的,一般電腦用這個解析度的都可以
  • 其中1的原圖,你自己試下,其實也是一個縮圖,所以一般下載選擇2-8
print('' * 20 + ' 格式選擇: ' + '' * 20)
print('1.縮圖 2.1024x768 3.1280x720 4.1280x1024 5.1440x900 6.1920x1080 7.1920x1200 8.1920x1440')
size = input('請輸入您想下載的格式序號,預設6:')
size = size if size and int(size) in [1,2,3,4,5,6,7,8] else 6

④、下載程式碼分析
  • 第一次請求主要是為了獲取總頁數,但是請求是從0開始為第一頁,所以需要減去1
  • while true中就是開始從0迴圈去請求地址,先找到縮圖地址,然後將縮圖的地址連結200替換成0就是目標圖片地址了
  • 如果名字中有特殊字元,就將其用正則去除,不然可能會影響路徑的查詢
print('---下載開始...')
page = 0
offset = 0
total_response = self.request(self.url.format(page)).text
total_res = json.loads(total_response)
total_page = --int(total_res['iTotalPages'])
print('---總共 {} 頁...' . format(total_page))
while True:
    if offset > total_page:
        break
    url = self.url.format(offset)
    response = self.request(url).text
    result = json.loads(response)
    now = 0
    for item in result["List"]:
        now += 1
        hero_name = parse.unquote(item['sProdName']).split('-')[0]
        hero_name = re.sub(r'[【】:.<>|·@#$%^&() ]', '', hero_name)
        print('---正在下載第 {} 頁 {} 英雄 進度{}/{}...' . format(offset, hero_name, now, len(result["List"])))
        hero_url = parse.unquote(item['sProdImgNo_{}'.format(str(size))])
        save_path = self.save_path + '/' + hero_name
        save_name = save_path + '/' + hero_url.split('/')[-2]
        if not os.path.exists(save_path):
            os.makedirs(save_path)
        if not os.path.exists(save_name):
            with open(save_name, 'wb') as f:
                response_content = self.request(hero_url.replace("/200", "/0")).content
                f.write(response_content)
    offset += 1
print('---下載完成...')

⑤、爬蟲執行的結果,相同名字的放在同一個資料夾下