Python抓取爐石傳說卡牌，做一個女神的拼圖遊戲

阿新 • • 發佈：2019-02-05

爐石傳說原畫1

爐石傳說原畫2

本打算使用Selenium模擬點選獲取圖片資訊

嘗試發現原始碼中該按鈕並無相應的跳轉連結

這不應該啊沒有相應的跳轉連結點選後是如何載入新的圖片？

後來瀏覽整體網站原始碼後發現把問題想複雜根本不需要模擬點選檢視更多

網站其實已經載入了所有的卡牌原畫只是之後的原畫做了隱藏處理預設不展示 style=display

點選檢視更多後顯示原畫

那麼只需使用requests獲取網頁原始碼

用BeautiSoup/正則表示式/pyQuery解析元素遍歷相應img的url 即可下載

Github

教訓：爬蟲前不要根據網頁所對的操作實施相應的程式碼爬取不要有這樣的思維定式首先要做的是先大體瀏覽分析整個網頁的原始碼有的可能直接寫在原始碼或json或js中無需再加工

爐石傳說卡牌連結

爐石傳說卡牌

該網站通過下拉右邊的滾動條不斷載入新的卡牌

與上一個網站不同上一個網站一次性寫入了所有卡牌只不過做了隱藏處理

該網站是通過js動態載入渲染出的卡牌直接獲取原始碼無法得到所有卡牌資訊

那麼就用selenium模擬下拉滾動條（selenium簡直居家必備之神器）

使用selenium執行js指令碼每次執行下拉1000個單位滾動條執行90次

為什麼是90次測試出來的大概90次拉到底

注意：這裡要增加1~3秒的暫停時間用於網頁渲染第一次沒有設定停留時間無法獲取新的資料懷疑自己懷疑人生

經前端/後端好友L君的提示需增加暫停時間這樣才能獲得載入渲染後的資料

browser.page_source便可獲得動態載入的所有資料

有了資料之後就很簡單正則匹配獲取相應url下載即可

Github

最後獲得了800張原畫 1324張卡牌

既然獲得了這麼多卡牌和原畫不能浪費利用起來拼圖！

致敬下玩了好幾年的爐石

謝謝你！

順手拼一下女神

我有一個微信公眾號，經常會分享一些python技術相關的乾貨；如果你喜歡我的分享，可以用微信搜尋“python語言學習”
關注，歡迎大家加入千人交流答疑裙：699+749+852

Python抓取爐石傳說卡牌，做一個女神的拼圖遊戲

爐石傳說原畫1 爐石傳說原畫2 本打算使用Selenium模擬點選獲取圖片資訊嘗試發現原始碼中該按鈕並無相應的跳轉連結這不應該啊沒有相應的跳轉連結點選後是如何載入新的圖片？後來瀏覽整體網站原始碼後發現把問題想複雜根本不需要模擬點選檢視更多

用python 抓取B站視頻評論，制作詞雲

port mil query 雲圖 ges cal 爬取 close hid python 作為爬蟲利器，與其有很多強大的第三方庫是分不開的，今天說的爬取B站的視頻評論，其實重點在分析得到的評論化作嵌套的字典，在其中取出想要的內容。層層嵌套，眼花繚亂，分析時應細致！步驟分為

[Python] 抓取必應每日一圖，設定為桌面桌布

在Windows 10 64位系統環境下，使用 Python 3.6 進行圖片抓取和設定桌布操作。其中，圖片連結 https://area.sinaapp.com/bingImg/ 為 Bing 每

Python抓取學院新聞報告

滿足 imp 實驗源代碼 ges tail view paste rom Python案例 scrapy抓取學院新聞報告任務抓取四川大學公共管理學院官網(http://ggglxy.scu.edu.cn)所有的新聞咨詢. 實驗流程 1.確定抓取目標.2.制定抓取規則.

python抓取

info 奧巴馬 www word ref str source div term 我要抓取奧巴馬每周的演講內容http://www.putclub.com/html/radio/VOA/presidentspeech/index.html 如果手動提取，就需要一個個點進去

python抓取bing主頁背景圖片

replace utf bytes for json格式 module imp urlopen 有變最初Python2寫法： #!/usr/bin/env python # -*- coding:utf-8 -*- # -*- author:nancy -*- # pyt

無比強大！Python抓取cssmoban站點的模版並下載

jea blank file timeout 全局 -- 文件的 pre target Python實現抓取http://www.cssmoban.com/cssthemes站點的模版並下載實現代碼 # -*- coding: utf-8 -*- im

python&php數據抓取、爬蟲分析與中介，有網址案例

網絡數據抓取不定 pytho span article 抓取取數據 data- 近期在做一個網絡爬蟲程序。後臺使用python不定時去抓取數據。前臺使用php進行展示站點是：http://se.dianfenxiang.com python&a

Python抓取手機APP中內容

quest 手機app 開始 clas tex json 完成 keep 抓取首先下載Wireshark和模擬器（天天模擬器，夜神模擬器），天天模擬器在自帶的應用商店裏面能夠登錄微信。然後打開Wireshark選擇一個網卡開始抓包。開始抓包後，在模擬器中要抓取的APP

python 抓取cisco交換機配置文件

cal pytho quit sys led ... eof tex passwd #!/usr/bin/python import sys import time import os import pexpect now = time.strftime(‘%Y-%

Python抓取數據的幾種方式

cnblogs 方式 edit api lencod nco financial 取數 .org import urllib.requestresponse = urllib.request.urlopen(‘http://python.org/‘)html = res

python 抓取電影天堂電影信息放入數據庫

python mysql 電影 # coding:utf-8 import requests from bs4 import BeautifulSoup from multiprocessing import Pool import urllib2 import re import json im

python 抓取"一個"網站文章信息放入數據庫

python 文章爬蟲 # coding:utf-8 import requests from bs4 import BeautifulSoup import json import time import datetime import pymysql import sys reload(sy

python 抓取內涵段子

爬蟲#!/usr/bin/env python #coding:utf-8 import requests,io,time from bs4 import BeautifulSoup def neihanjoke(): headers = { 'Accept':

Python抓取遠程文件獲取真實文件名

pen AR name position 遠程文件 head con get log 用urllib下載遠程文件並轉存到hdfs服務器，在下載時，下載地址中不一定包含文件名，需要從連接信息中獲取。 1 file_url = request.form.get(

python: 抓取免費代理ip

python 抓取免費代理ip通過抓取西刺網免費代理ip實現代理爬蟲： from bs4 import BeautifulSoup import requests import random import telnetlib requests = requests.session() ip_list = []

Python 抓取網頁gb2312亂碼問題

發現 file read earch () spa .com pycharm close python 爬取學校所有人四六級成績時發現爬出網頁中文亂碼遂google 得到一解決方案 # -*- coding:utf8 -*- import urllib2

Python - 抓取豆列

nco style user != 收藏 day TP lis paginator 將豆列導出為 Markdown 文件。 #!/usr/bin/env python #! encoding=utf-8 # Description : 將豆列導出為 Markdown

Python抓取京東商品信息

Python抓取京東商品信息打開網頁http://item.jd.com/7336413.html定位到“規格與包裝” Python抓取京東商品信息

Python抓取新浪新聞數據（二）

Python抓取新浪新聞數據以下是抓取的完整代碼(抓取了網頁的title,newssource,dt,article,editor,comments)舉例：Python抓取新浪新聞數據（二）

Python抓取爐石傳說卡牌，做一個女神的拼圖遊戲

相關推薦