利用Python爬取OPGG上英雄聯盟英雄勝率及選取率資訊

阿新 • • 發佈：2020-03-15

一、分析網站內容

本次爬取網站為opgg，網址為：” http://www.op.gg/champion/statistics”

由網站介面可以看出，右側有英雄的詳細資訊，以Garen為例，勝率為53.84%，選取率為16.99%，常用位置為上單

現對網頁原始碼進行分析（右鍵滑鼠在選單中即可找到檢視網頁原始碼）。通過查詢“53.84%”快速定位Garen所在位置

由程式碼可看出，英雄名、勝率及選取率都在td標籤中，而每一個英雄資訊在一個tr標籤中，td父標籤為tr標籤，tr父標籤為tbody標籤。

對tbody標籤進行查詢

程式碼中共有5個tbody標籤（tbody標籤開頭結尾均有”tbody”，故共有10個”tbody”），對欄位內容分析，分別為上單、打野、中單、ADC、輔助資訊

以上單這部分英雄為例，我們需要首先找到tbody標籤，然後從中找到tr標籤（每一條tr標籤就是一個英雄的資訊），再從子標籤td標籤中獲取英雄的詳細資訊

二、爬取步驟

爬取網站內容->提取所需資訊->輸出英雄資料

getHTMLText(url)->fillHeroInformation(hlist,html)->printHeroInformation(hlist)

getHTMLText(url)函式是返回url連結中的html內容

fillHeroInformation(hlist,html)函式是將html中所需資訊提取出存入hlist列表中

printHeroInformation(hlist)函式是輸出hlist列表中的英雄資訊

三、程式碼實現

1、getHTMLText(url)函式

1 def getHTMLText(url): #返回html文件資訊
2     try:
3         r = requests.get(url,timeout = 30)
4         r.raise_for_status()
5         r.encoding = r.apparent_encoding
6         return r.text #返回html內容
7     except:
8         return ""

2、fillHeroInformation(hlist,html)函式

以一個tr標籤為例，tr標籤內有7個td標籤，第4個td標籤內屬性值為"champion-index-table__name"的div標籤內容為英雄名，第5個td標籤內容為勝率，第6個td標籤內容為選取率，將這些資訊存入hlist列表中

1 def fillHeroInformation(hlist,html): #將英雄資訊存入hlist列表
2     soup = BeautifulSoup(html,"html.parser")
3     for tr in soup.find(name = "tbody",attrs = "tabItem champion-trend-tier-TOP").children: #遍歷上單tbody標籤的兒子標籤
4         if isinstance(tr,bs4.element.Tag): #判斷tr是否為標籤型別，去除空行
5             tds = tr('td') #查詢tr標籤下的td標籤
6             heroName = tds[3].find(attrs = "champion-index-table__name").string #英雄名
7             winRate = tds[4].string #勝率
8             pickRate = tds[5].string #選取率
9             hlist.append([heroName,winRate,pickRate]) #將英雄資訊新增到hlist列表中

3、printHeroInformation(hlist)函式

1 def printHeroInformation(hlist): #輸出hlist列表資訊
2     print("{:^20}\t{:^20}\t{:^20}\t{:^20}".format("英雄名","勝率","選取率","位置"))
3     for i in range(len(hlist)):
4         i = hlist[i]
5         print("{:^20}\t{:^20}\t{:^20}\t{:^20}".format(i[0],i[1],i[2],"上單"))

4、main()函式

網站地址賦值給url，新建一個hlist列表，呼叫getHTMLText(url)函式獲得html文件資訊，使用fillHeroInformation(hlist,html)函式將英雄資訊存入hlist列表，再使用printHeroInformation(hlist)函式輸出資訊

1 def main():
2     url = "http://www.op.gg/champion/statistics"
3     hlist = []
4     html = getHTMLText(url) #獲得html文件資訊
5     fillHeroInformation(hlist,html) #將英雄資訊寫入hlist列表
6     printHeroInformation(hlist) #輸出資訊

四、結果演示

1、網站介面資訊

2、爬取結果

五、完整程式碼

 1 import requests
 2 import re
 3 import bs4
 4 from bs4 import BeautifulSoup
 5 
 6 def getHTMLText(url): #返回html文件資訊
 7     try:
 8         r = requests.get(url,timeout = 30)
 9         r.raise_for_status()
10         r.encoding = r.apparent_encoding
11         return r.text #返回html內容
12     except:
13         return ""
14 
15 def fillHeroInformation(hlist,html): #將英雄資訊存入hlist列表
16     soup = BeautifulSoup(html,"html.parser")
17     for tr in soup.find(name = "tbody",attrs = "tabItem champion-trend-tier-TOP").children: #遍歷上單tbody標籤的兒子標籤
18         if isinstance(tr,bs4.element.Tag): #判斷tr是否為標籤型別，去除空行
19             tds = tr('td') #查詢tr標籤下的td標籤
20             heroName = tds[3].find(attrs = "champion-index-table__name").string #英雄名
21             winRate = tds[4].string #勝率
22             pickRate = tds[5].string #選取率
23             hlist.append([heroName,winRate,pickRate]) #將英雄資訊新增到hlist列表中
24 
25 def printHeroInformation(hlist): #輸出hlist列表資訊
26     print("{:^20}\t{:^20}\t{:^20}\t{:^20}".format("英雄名","勝率","選取率","位置"))
27     for i in range(len(hlist)):
28         i = hlist[i]
29         print("{:^20}\t{:^20}\t{:^20}\t{:^20}".format(i[0],i[1],i[2],"上單"))
30 
31 def main():
32     url = "http://www.op.gg/champion/statistics"
33     hlist = []
34     html = getHTMLText(url) #獲得html文件資訊
35     fillHeroInformation(hlist,html) #將英雄資訊寫入hlist列表
36     printHeroInformation(hlist) #輸出資訊
37 
38 main()

如果需要爬取打野、中單、ADC或者輔助資訊，只需要修改

fillHeroInformation(hlist,html)函式中的

for tr in soup.find(name = "tbody",attrs = "tabItem champion-trend-tier-TOP").children語句，將attrs屬性值修改為

"tabItem champion-trend-tier-JUNGLE"、"tabItem champion-trend-tier-MID"、"tabItem champion-trend-tier-ADC"、"tabItem champion-trend-tier-SUPPORT"等即

利用Python爬取OPGG上英雄聯盟英雄勝率及選取率資訊

一、分析網站內容本次爬取網站為opgg，網址為：” http://www.op.gg/champion/statistics” 由網站介面可以看出，右側有英雄的詳細資訊，以Garen為例，勝率為53.84%，選取率為16.99%，常用位置為上單現對網頁原始碼進行分析（右鍵滑鼠在選單中即可找到檢視網頁原始

利用Python爬取YouTube上的視訊播放地址

開啟www.youtube.com, 隨便選擇一個topic（我這裡選的是lion king），再過濾選擇時長小於4分鐘右鍵檢視原始碼資訊紅色框內的就是視訊的地址，利用正則表示式，很容易的就可

利用Python爬取房產資料！並在地圖上顯示！Python乃蒂花之秀！

JiwuspiderSpider.py # -*- coding: utf-8 -*- from scrapy import Spider,Request import re from jiwu.items import JiwuItem clas

利用python爬取實習僧網站上的資料

最近在找實習，就順便想到用python爬取一些職位資訊看看，有哪些崗位比較缺人。 #_*_coding:utf-8_*_ import requests from bs4 import BeautifulSoup import xlwt import r

利用python爬取龍虎榜數據及後續分析

登錄 one 可能股市 .com 爬蟲但我由於相關 ##之前已經有很多人寫過相關內容，但我之前並未閱讀過，這個爬蟲也是按照自己的思路寫的，可能比較醜陋，請見諒！本人作為Python爬蟲新手和股市韭菜，由於時間原因每晚沒辦法一個個翻龍虎榜數據，所以希望借助爬蟲篩選出

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

利用python爬取糗事百科的用戶及段子

我們什麽 roo urlopen gen 文件 addheader find 正則匹配最近正在學習python爬蟲，爬蟲可以做很多有趣的事，本文利用python爬蟲來爬取糗事百科的用戶以及段子，我們需要利用python獲取糗事百科一個頁面的用戶以及段子，就需要匹配兩次，

利用Python爬取可用的代理IP

strip() color 地址 read main urn try exc head 前言就以最近發現的一個免費代理IP網站為例：http://www.xicidaili.com/nn/。在使用的時候發現很多IP都用不了。所以用Python寫了個腳本，該腳本可以把能用

Python爬蟲案例：利用Python爬取笑話網

htm 分享 targe pen 技術分享搞笑 lan tle import 學校的服務器可以上外網了，所以打算寫一個自動爬取笑話並發到bbs的東西，從網上搜了一個笑話網站，感覺大部分還不太冷，html結構如下：可以看到，笑話的鏈接列表都在<div cla

沒有內涵段子可以刷了，利用Python爬取段友之家貼吧圖片和小視頻(含源碼)

python 興趣爬蟲職業由於最新的視頻整頓風波，內涵段子APP被迫關閉，廣大段友無家可歸，但是最近發現了一個“段友”的app，版本更新也挺快，正在號召廣大段友回家，如下圖，有興趣的可以下載看看（ps：我不是打廣告的，沒收廣告費的）同時，之前同事也發了一個貼吧的段子聚居地，客官稍等，馬

今天你教高考生一個裝逼神技！利用Python爬取歷年高考成績！

mongo tle one 展示 com .text color rep mon 2.爬取數據 1.獲取各省的分數線信息獲取各省份的鏈接： # 獲取分數線 def get_score(url): web_data = requests.get(url, hea

利用Python爬取幾百萬github數據！這些源碼都是我的囊中之物！

.py .com exchange 非阻塞問題判斷 recursion 異步調用 direct 進群：548377875 即可獲取數十套PDF哦！看到這麽簡單的流程，內心的第一想法就是先簡單的寫一個遞歸實現唄，要是性能差再慢慢優化，所以第一

最後輕松一夏，周末利用python爬取“陳翔六點半”搞笑視頻！

多看獲取數據也會程序員 copy 是什麽查看 ima 周末覺得程序員再忙也需要給自己安排一點娛樂時間，對自己好點，自己對自己不好，誰會？自己娛樂一般會有：跑步、看電影、小視頻，而小視頻是最家常的娛樂方式，看得最多的小視頻是「陳翔六點半」，咦！拍得搞笑

利用Python爬取500萬以上的國產自拍小電影哦！

宣告：本專案旨在學習Scrapy爬蟲框架和MongoDB資料庫，不可使用於商業和個人其他意圖。若使用不當，均由個人承擔。 PornHubBot PornHubBot專案主要是爬取全球最大的小電影網站PornHub的視訊標題、時長、mp4連結、封

利用Python爬取了1600個崗位！原來一個程式設計師的年薪可以這麼高！

Python學了這麼久，相信很多小夥伴都想知道錢途如何，全國各大城市招聘Python的崗位有多少，都招哪些職位，年薪如何等等，我爬取了拉勾近1600個Python相關的職位，我們用資料說話！進群：548377875 即可獲取數十套PDF哦！ &nb

利用python爬取yapi後臺介面

解決的問題：檢測公司釋出系統之中，遺漏的介面路徑地址。採取的方法：爬取yapi管理後臺，爬取所有的介面路徑，同時檢測這個path路徑是否在釋出系統之中（如果不在釋出系統之後，通過域名訪問，會提示沒有許可權）好了瞭解了背景之後我就開始開工了。一、瞭解yapi 在

利用python爬取mobike在西安地區的分佈情況

先附上整個思路流程 1，獲取mobike單車的API介面 2，爬取API資料 3，資料視覺化一：利用Fiddle抓取mobileAPI資料介面得到post請求如下 POST https://mwx.mobike.com/nearby/nearbyBikeInf

用Python爬取網頁上的小說，讓你從此告別書荒！

eset 爬取網頁網站鏈接表頭寫入改變 span 人生人生苦短，我用Python。有道愛看小說的小夥伴們，在看小說的期間總會遇到那麽一段書荒期，在這段期間想看書卻找不到，要麽就是要VIP，要麽就是下載不了。所以學會爬取網站上的小說是很有必要的，今天就以爬取筆趣閣

利用Python爬取攝影網站圖片，切勿商用

今天我們繼續爬取一個網站，這個網站為 http://image.fengniao.com/ ，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，不要用於商業目的，不出意外，蜂鳥是有版權保護的網站。 Python學習資料或者需要程式碼、視訊加Python學習群：9604104

利用python爬取IP地址歸屬地等資訊！

import requests url = "http://m.ip138.com/ip.asp?ip=" try: r = requests.get(url + '202.204.80.112') r.raise_for_status()

利用Python爬取OPGG上英雄聯盟英雄勝率及選取率資訊

一、分析網站內容

二、爬取步驟

三、程式碼實現

1、getHTMLText(url)函式

2、fillHeroInformation(hlist,html)函式

3、printHeroInformation(hlist)函式

4、main()函式

四、結果演示

1、網站介面資訊

2、爬取結果

五、完整程式碼

相關推薦