爬蟲——中國大學排名

阿新 • • 發佈：2020-12-14

from bs4 import BeautifulSoup  # 網頁解析  獲取資料
import re  # 正則表示式 進行文字匹配
import urllib.request, urllib.error  # 制定url 獲取網頁資料
import xlwt

def main():
    baseurl = "http://m.gaosan.com/gaokao/265440.html"
    # 1爬取網頁
    datalist = getData(baseurl)
    savepath = "中國大學排名.xls"
    saveData(datalist,savepath)

# 正則表示式
paiming = re.compile(r'<td>(.*)</td><td>.*</td><td>.*</td><td>.*</td><td>.*</td>')  # 建立超連結正則表示式物件，表示字串模式，規則
xuexiao = re.compile(r'<td>.*</td><td>(.*)</td><td>.*</td><td>.*</td><td>.*</td>')
defen   = re.compile(r'<td>.*</td><td>.*</td><td>(.*)</td><td>.*</td><td>.*</td>')
xingji  = re.compile(r'<td>.*</td><td>.*</td><td>.*</td><td>(.*)</td><td>.*</td>')
cengci  = re.compile(r'<td>.*</td><td>.*</td><td>.*</td><td>.*</td><td>(.*)</td>')

# 爬取網頁
def getData(baseurl):
    datalist = []
    html = askURL(baseurl)  # 儲存獲取到的網頁原始碼
    # print(html)
    #【逐一】解析資料  （一個網頁就解析一次）
    soup = BeautifulSoup(html, "html.parser")  # soup是解析後的樹形結構物件
    for item in soup.find_all('tr'):  # 查詢符合要求的字串形成列表
        # print(item)    #測試檢視item全部
        data = []  # 儲存一個學校的所有資訊
        item = str(item)
        #排名
        paiming1 = re.findall(paiming, item)  # re正則表示式查詢指定字串 0表示只要第一個 前面是標準後面是找的範圍
        # print(paiming1)
        if(not paiming1):
            pass
        else:
            print(paiming1[0])
            data.append(paiming1)
        if(paiming1 in data):
            #學校名字
            xuexiao1 = re.findall(xuexiao, item)[0]
            # print(xuexiao1)
            data.append(xuexiao1)
            #得分
            defen1 = re.findall(defen, item)[0]
            # print(defen1)
            data.append(defen1)
            #星級
            xingji1 = re.findall(xingji, item)[0]
            # print(xingji1)
            data.append(xingji1)
            #層次
            cengci1 = re.findall(cengci, item)[0]
            # print(cengci1)
            data.append(cengci1)
            # print('-'*80)
        datalist.append(data)  # 把處理好的一個學校資訊放入datalist中
    return datalist


# 得到指定一個url網頁資訊內容
def askURL(url):
    # 我的初始訪問user agent
    head = {  # 模擬瀏覽器頭部資訊，向豆瓣伺服器傳送訊息 偽裝用的
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36"
    }
    # 使用者代理表示告訴豆瓣伺服器我們是什麼型別的機器--瀏覽器  本質是告訴瀏覽器我們可以接受什麼水平的檔案內容
    request = urllib.request.Request(url, headers=head)  # 攜帶頭部資訊訪問url
    # 用request物件訪問
    html = ""
    try:
        response = urllib.request.urlopen(request)  # 用urlopen傳遞封裝好的request物件
        html = response.read().decode("utf-8")  # read 讀取 可以解碼 防治亂碼
        # print(html)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)  # 列印錯誤程式碼
        if hasattr(e, "reason"):
            print(e.reason)  # 列印錯誤原因
    return html


# 3儲存資料
def saveData(datalist, savepath):
    book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 建立workbook物件   樣式壓縮效果
    sheet = book.add_sheet('中國大學排名', cell_overwrite_ok=True)  # 建立工作表  一個表單  cell覆蓋
    for i in range(0, 640):
        print("第%d條" % (i + 1))
        data = datalist[i]
        # print(data)
        for j in range(0, 5):  # 每一行資料儲存進去
            sheet.write(i , j, data[j])  # 資料
    book.save(savepath)  # 儲存資料表


#主函式
if __name__ == "__main__":  # 當程式執行時
    # #呼叫函式     程式執行入口
    main()
    # init_db("movietest.db")
    print("爬取完畢！")

爬蟲——中國大學排名

from bs4 import BeautifulSoup# 網頁解析獲取資料 import re# 正則表示式進行文字匹配 import urllib.request, urllib.error# 制定url 獲取網頁資料

007 Python網路爬蟲與資訊提取中國大學排名爬蟲

[A] 中國大學排名定向爬蟲例項介紹　　功能描述　　　　輸入：大學排名URL連結

Python：軟科中國大學排名爬蟲(2021.11.5)

目錄爬蟲物件選擇資料處理完整程式碼從 API 獲取資料爬蟲物件選擇開啟軟科中國大學排名，觀察這個頁面結構複雜且一頁只顯示了 30 所大學。

Python爬取中國大學排名，並且儲存到excel中

前言以下文章來源於資料分析和Python，作者岡阪日川今天發的是python爬蟲爬取中國大學排名，並且儲存到excel中，當然這個程式碼很簡單，我用了半小時就寫完了，我的整體框架非常清晰，可以直接拿去用，也希望有

中國大學排名網站

# -*- coding: utf-8 -*- import bs4 import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt

中國大學排名

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url,timeout=30)

爬取中國大學排名變化資料與視覺化分析

一、選題背景高考作為中國學生生涯中最為重要的事，在高考之後，選擇一所好的大學則是接下的人生的一塊的敲門磚，選擇有著好的大學，和有著良好教育氛圍的城市以及所選擇的大學近年來的變化是很重要的事，在以前，想

大學排名爬蟲例項

技術標籤：python #daxuepaiming Web Crawler.py import requests from bs4 import BeautifulSoup import bs4

python爬蟲——大學排名

import requests from bs4 import BeautifulSoup ALL = [] def getHTMLtext(url): try: r = requests.get(url,timeout = 30)

資料視覺化之中國大學綜合排名實戰（二）

中國大學綜合排名 1、導包 from pyecharts.charts import Map, Bar, Pie from pyecharts import options as opts

python動態柱狀圖圖表視覺化：歷年軟科中國大學排行

本來想參照：https://mp.weixin.qq.com/s/e7Wd7aEatcLFGgJUDkg-EQ搞一個往年程式語言動態圖的，奈何找不到資料，有資料來源的歡迎在評論區留言。

C語言程式設計筆記--條件控制(中國大學MOOC翁凱)

if（如果） if（條件成立）{ … } if…else（如果…否則…） if（條件成立）{ … } else{ … }

中國大學慕課答案查詢公眾號

網路現在是越來越發達了，大家現在什麼都在網上辦公、乃至上課。作業的負擔是越來越重，從而興起了網課這個課程，現在的大學生有時候選修課比自己的專業課還多。選修課你還要一邊看視訊，一邊做題。其中的艱

爬取大學排名

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url,timeout=30)

中國大學MOOC-陳越、何欽銘-資料結構-起步能力自測題

技術標籤：資料結構c++ 中國大學MOOC-陳越、何欽銘-資料結構-起步能力自測題自測-1 列印沙漏自測-2 素數對猜想自測-3陣列元素迴圈右移問題自測-4Have Fun with Numbers自測-5Shuffling Machine

中國大學MOOC-陳越、何欽銘-資料結構-起步能力自測題-1

技術標籤：PTAc語言演算法自測-1列印沙漏(20point(s)) 本題要求你寫個程式把給定的符號列印成沙漏的形狀。例如給定17個“*”，要求按下列格式列印

中國大學慕課大連理工大學 C語言程式設計第7周函式的定義及呼叫

1 編寫函式，計算銀行存款本息並輸出。（10分）題目內容：編寫函式計算銀行存款本息，在主函式中從鍵盤輸入銀行存款金額(money)、存款週期(year)和年利率(rate)，呼叫計算銀行存款本息函式，根據下面公式計算存款

中國大學學者與微軟亞研院獲 ICCV 2021 最佳論文，接收論文近半來自華人

ICCV 2021 最佳論文剛剛公佈：中國學者憑藉 Swin Transformer 獲此殊榮。這一研究由微軟亞研院（MSRA）提出，論文的四位共同一作分別是來自中國科學技術大學的劉澤、西安交通大學的林宇桐、以及 MSRA 的曹越和胡瀚。

最新！2020世界一流大學學術排名出爐：北京大學、清華大學、中國人民大學表現卓越！...

來源：艾瑞深校友會網編輯：雙一流高校 2020年10月，全國第三方大學評價研究機構——艾瑞深校友會網(Cuaa.Net)正式釋出《校友會2020中國大學雙一流建設評價報告》，報告發布最新校友會2020世界一流大學建

python爬蟲 2019中國好聲音評論爬取過程解析

2019中國好聲音火熱開播，作為一名“假粉絲”，這一季每一期都刷過了，尤其剛播出的第六期開始正式的battle。視訊視訊看完了，那看下大家都是怎樣評論的。

爬蟲——中國大學排名

相關推薦