中國大學排名爬蟲

阿新 • • 發佈：2018-06-03

com 網絡 text tab 千分位 main fin fill 功能

功能描述：

輸入：大學排名URL鏈接：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html
輸出：大學排名信息的屏幕輸出（排名，大學名稱，總分）
技術路線：requests-bs4
定向爬蟲：僅對輸入的URL鏈接進行爬取，不擴展爬取。

程序的程序設計：

步驟1：從網絡上獲取大學排名網頁內容(getHTMLText())
步驟2：提取網頁內容中信息到合適的數據結構(fillUnivList())
步驟3：利用數據結構展示並輸出結果(printUnivList())

格式化輸出：

爬蟲代碼：

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import bs4
 4  
 5 def getHTMLText(url):
 6     try:
 7         r = requests.get(url, timeout = 30)
 8         r.raise_for_status()
 9         r.encoding = r.apparent_encoding
10         return r.text
11     except 
:
12         return ""
13  
14 def fillUnivList(ulist, html):
15     soup = BeautifulSoup(html, "html.parser")
16     for tr in soup.find(‘tbody‘).children:
17         if isinstance(tr, bs4.element.Tag):
18             tds = tr(‘td‘)
19             ulist.append([tds[0].string, tds[1].string, tds[2].string])
 
20  
21 def printUnivList(ulist, num):
22     print("{:^10}\t{:^6}\t{:^10}".format("排名", "學校名稱", "總分"))
23     for i in range(num):
24         u = ulist[i]
25         print("{:^10}\t{:^6}\t{:^10}".format(u[0], u[1], u[2]))
26  
27 #主函數
28 def main():
29     uinfo = []
30     url = ‘http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html‘
31     html = getHTMLText(url)
32     fillUnivList(uinfo, html)
33     printUnivList(uinfo, 20) # 20所大學
34 main()

爬蟲結果：

爬蟲實例優化：

中文對齊問題的原因：

:	<填充>	<對齊>	<寬度>	,	<.精度>	<類型>
引導符號	用於填充的單個字符	<左對齊 >右對齊 ^居中對齊	槽的設定輸出寬度	數字的千分位分隔符適用於整數和浮點數	浮點數小數備部分的精度或字符串的最大輸出長度	整數類型：b,c,d,o,x,X浮點數類型：e,E,f,%

當中文字符寬度不夠使，采用西文字符填充；中西文占用寬度不同。

中文對齊問題的解決：

采用中文字符的空格填充 chr(12288)

爬蟲代碼：

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import bs4
 4  
 5 def getHTMLText(url):
 6     try:
 7         r = requests.get(url, timeout = 30)
 8         r.raise_for_status()
 9         r.encoding = r.apparent_encoding
10         return r.text
11     except:
12         return ""
13  
14 def fillUnivList(ulist, html):
15     soup = BeautifulSoup(html, "html.parser")
16     for tr in soup.find(‘tbody‘).children:
17         if isinstance(tr, bs4.element.Tag):
18             tds = tr(‘td‘)
19             ulist.append([tds[0].string, tds[1].string, tds[2].string])
20  
21 def printUnivList(ulist, num):
22     tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"
23     print(tplt.format("排名", "學校名稱", "總分", chr(12288)))
24     for i in range(num):
25         u = ulist[i]
26         print(tplt.format(u[0], u[1], u[2], chr(12288)))
27  
28 #主函數
29 def main():
30     uinfo = []
31     url = ‘http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html‘
32     html = getHTMLText(url)
33     fillUnivList(uinfo, html)
34     printUnivList(uinfo, 20) # 20所大學
35 main()

爬蟲結果：

中國大學排名爬蟲

com 網絡 text tab 千分位 main fin fill 功能功能描述：輸入：大學排名URL鏈接：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 輸出：大學排名信息的屏幕輸出（排名，大

中國大學排名定向爬蟲

展示中國判斷點列屏幕 .cn axu ise () 功能描述：輸入：大學排名URL鏈接輸出：大學排名信息的屏幕輸出（排名，大學名稱，總分）技術路線：requests+bs4定向爬蟲：僅對輸入URL進行爬取，不擴展爬取程序的結構設計：步驟1：從網絡上獲取大學排名網頁

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

爬蟲：中國大學排名定向爬蟲例項

例項最好大學排名http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 功能描述：輸入大學排名URL連結輸出：大學排名資訊的螢幕輸出（排名，大學名稱，總分）技術路線：requests-bs4 定向爬蟲：僅對輸入URL進

python 爬蟲例項爬取中國大學排名

import requests from bs4 import BeautifulSoup import bs4 def gegHTMLText(url): try: r = requests.get(url) r.raise_for_status()

爬蟲入門，中國大學排名

此爬蟲本人初學所寫，僅能實現較少功能 ps:需要使用到beautifulsoup, requests庫安裝方法：pip install beautifulsoup4 import requests from bs4 import BeautifulSoup impor

python爬蟲學習中國大學排名顯示及儲存檔案 DAY3

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30)

python爬蟲入門---第二篇：獲取2019年中國大學排名

time 中國 form htm sts odin 代碼網站 stat 我們需要爬取的網站：最好大學網我們需要爬取的內容即為該網頁中的表格部分：該部分的html關鍵代碼為：其中整個表的標簽為<tbody>標簽，每行的標簽為<tr&

re-bs4 例項：中國大學排名

import requests from bs4 import BeautifulSoup import bs4 ''' 功能描述輸入：大學排名URL連結輸出：大學排名資訊的螢幕輸出（排名，大學名稱，總分）技術路線：requests‐bs4 定向爬蟲：僅對輸入URL進行爬取，不擴

中國大學排名定向爬取

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_

爬取中國大學排名

看到結果真是傷心~~~~~。 import requests from bs4 import BeautifulSoup import bs4 def get_html(url): #獲取網頁內容 try: page=requests

使用Python爬取中國大學排名，並格式化對其輸出內容

首先，我們需要注意幾點 1.可以使用isinstance語句配合bs4庫中的bs4.element.Tag判斷獲取到的物件是不是標籤物件. 2.輸出內容並且要求他用空白補齊時，系統預設用的是英文空白

爬取軟科中國最好大學排名

作為一個剛學會使用BeautifulSoup的菜鳥我二話不說直接把align='left’屬性作為它們共同特點，敲了兩下程式碼順便複習了一下python基本語法，果不其然一下就爬下來了。 import requests from bs4 import BeautifulSoup

Python爬蟲例項：爬取“最好大學網”大學排名

例項2 爬取大學排名上海交通大學設計了一個“最好大學網”，上面列出了當前的大學排名。我們要設計爬蟲程式，爬取大學排名資訊。爬蟲功能要求：輸入：大學排名URL連結輸出：大學排名資訊的螢幕輸出（排名，大學名稱，總分）工具：python3、requests、beauti

Python網路爬蟲與資訊提取（中國大學mooc）

目錄 Python網路爬蟲與資訊提取淘寶商品比價定向爬蟲股票資料定向爬蟲 1. 淘寶商品比價定向爬蟲功能描述目標：獲取淘寶搜尋頁面的資訊理解：淘寶的搜尋介面翻頁的處理技術路線：requests

《python網路爬蟲——大學排名》

程式碼如下： import requests, bs4 import tkinter from bs4 import BeautifulSoup def getHtmlText(url): try: html = requests.get(url

4爬蟲例項----大學排名

輸入：大學排名網站的url連結輸出：大學排名資訊的螢幕輸出（排名，學校名稱，總分）技術：requests-bs4 此為定向爬蟲，僅對給定的url進行爬取，不擴充套件爬取步驟1：獲取網頁內容 getHTMLText() 步驟2：提取所需內容並放入合適的資料結構中fillUnivLis

Python爬蟲——爬取中國高校排名前100名並寫入MySQL

　　本篇分享講爬取中國高校排名前100名並將其寫入MySQL，這樣做的好處是：1.將資料存入資料庫，能永久利用；2.能利用資料庫技術做一些其他操作。爬取的網頁是:http://gaokao.xdf.cn/201702/10612921.html, 截圖如下（部分

[筆記]python網路爬蟲：一個簡單的定向爬取大學排名資訊示例

爬取的網站資訊 <div class="section"><a id="zhb" name="zhb"></a> <div class="title t2"><h1><img

python3.x爬蟲：爬取大學排名資料

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url, timeout=30)

中國大學排名爬蟲

相關推薦