007 Python網路爬蟲與資訊提取中國大學排名爬蟲

阿新 • • 發佈：2020-11-20

[A] 中國大學排名定向爬蟲例項介紹

　　功能描述

　　　　輸入：大學排名URL連結

　　　　輸出：大學排名資訊的螢幕輸出(排名，大學名稱，總分)

　　　　技術路線：request，bs4

　　　　定向爬蟲：僅對輸入URL進行爬取，不拓展爬取

　　程式的結構設計：

　　　　步驟1：從網路上獲取大學排名網頁內容

　　　　　　　　定義函式：getHTMLText()

　　　　步驟2：提取網頁內容中資訊到合適的額資料結構

　　　　　　　　定義函式：fillUnivList()

　　　　步驟3：利用資料結構展示並輸出結果

　　　　　　　　定義函式：printUnivList()

[B] 中國大學排名定向爬蟲例項編寫

　　　　定義了三個函式，分別用來 1. 獲取，2. 儲存和 3. 展示所爬取的結果

import requests
from bs4 import BeautifulSoup
import bs4

# 中國大學排名

# 1. 從url中獲取所需html程式碼並返回
def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except 
:
        return ''


# 2. 從獲取到的html程式碼中解析出所需要的的資料儲存在列表中並返回
def fillUnivList(html):
    ulist = []
    sublist = []
    soup = BeautifulSoup(html, 'html.parser')
    text = soup.tbody
    for tr in soup.find('tbody').children:
        tds = tr('td')
        for item in tds:
            sublist.append(item.string)
        ulist.append(sublist)
        sublist  
= []
    return ulist


# 3. 根據輸入的資訊，按要求打印出相應資料
def printUnivList(ulist, start, end):
    print('{:^9}{:^12}{:^15}'.format('排名', '學校名稱', '分數'))
    for i in range(start, end+1):
        print('{:^10}{:^12}{:^15}'.format(ulist[i][0], ulist[i][1], ulist[i][2]))


# 主程式
def main():
    url = 'http://www.gaosan.com/gaokao/299262.html'
    html = getHTMLText(url)
    uinfor = fillUnivList(html)
    printUnivList(uinfor, 5, 30)


# 執行主程式
main()

View Code

[C]中國大學排名定向爬蟲例項優化

007 Python網路爬蟲與資訊提取中國大學排名爬蟲

[A] 中國大學排名定向爬蟲例項介紹　　功能描述　　　　輸入：大學排名URL連結

006 Python網路爬蟲與資訊提取資訊組織與提取方法

[A] 資訊標記的三種形式　　　　資訊標記：通過網路爬蟲，我們可以獲取各式各樣的資訊，比如地址資訊，姓名資訊，日期資訊，年代資訊等，這些資訊會很冗雜

Python網路爬蟲與資訊提取_網課筆記1

技術標籤：python 目錄 HTTP協議HTTP協議對資源的操作PATCH和PUT的區別 HTTP協議方法與Requests庫方法一一對應requests.head()requests.post()

Python網路爬蟲與資訊提取MOOC學習——Requests庫網路爬蟲實戰

技術標籤：Python Requests庫網路爬蟲實戰例項一：商品頁面的爬取通過連結獲取商品資訊，通過GET方法獲取連結內容【京東商品URL連結：https://item.jd.com/2967929.html 中國亞馬遜網站商品連結 https://www.

Python：軟科中國大學排名爬蟲(2021.11.5)

目錄爬蟲物件選擇資料處理完整程式碼從 API 獲取資料爬蟲物件選擇開啟軟科中國大學排名，觀察這個頁面結構複雜且一頁只顯示了 30 所大學。

【網路通訊與資訊保安】之深入分析Token、session和cookie的使用場景和區別

在Web開發領域，相信大家對於 Cookie 和 Session 都很熟悉，Cookie 和 Session 都是會話保持技術的解決方案。隨著技術的發展，Token 機制出現在我們面前，不過很多開發者對於 Token 和 Cookie、Session 的區

Python爬取中國大學排名，並且儲存到excel中

前言以下文章來源於資料分析和Python，作者岡阪日川今天發的是python爬蟲爬取中國大學排名，並且儲存到excel中，當然這個程式碼很簡單，我用了半小時就寫完了，我的整體框架非常清晰，可以直接拿去用，也希望有

爬蟲——中國大學排名

from bs4 import BeautifulSoup# 網頁解析獲取資料 import re# 正則表示式進行文字匹配 import urllib.request, urllib.error# 制定url 獲取網頁資料

爬取中國大學排名變化資料與視覺化分析

一、選題背景高考作為中國學生生涯中最為重要的事，在高考之後，選擇一所好的大學則是接下的人生的一塊的敲門磚，選擇有著好的大學，和有著良好教育氛圍的城市以及所選擇的大學近年來的變化是很重要的事，在以前，想

大學排名爬蟲例項

技術標籤：python #daxuepaiming Web Crawler.py import requests from bs4 import BeautifulSoup import bs4

中國大學排名網站

# -*- coding: utf-8 -*- import bs4 import requests from bs4 import BeautifulSoup import pandas as pd import matplotlib.pyplot as plt

中國大學排名

import requests from bs4 import BeautifulSoup import bs4 def getHTMLText(url): try: r = requests.get(url,timeout=30)

Python網路爬蟲資訊提取mooc程式碼例項

例項一--爬取頁面 import requests url=\"https//itemjd.com/2646846.html\" try: r=requests.get(url) r.raise_for_status()

Python網路爬蟲的基本流程與準備

基本流程：準備工作：（通過瀏覽器檢視分析目標網頁，學習程式設計基礎規範）

教你使用Python網路爬蟲獲取菜譜資訊，

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

網路爬蟲資訊提取的常識和Robots協議

技術標籤：網路網路爬蟲介紹在瀏覽網站中，所能見到的資料可以通過爬蟲程式儲存下來。

python jsonpath 與 filter 提取資訊

1. filter filter() 函式用於過濾序列，過濾掉不符合條件的元素，返回由符合條件元素組成的新列表。

爬蟲與Python：（一）網路爬蟲概念篇——7.Session和Cookie

什麼是Session和Cookie? Session和Cookie是使用者保持HTTP連線狀態的技術。在網頁或APP等應用中基本都會使用到。在寫爬蟲的時候，也經常會涉及需要攜帶Cookie應對一般的反爬，接下來會對Session和Cookie的基本原理做

爬蟲與Python：（三）基本庫的使用——2.網路請求庫之request安裝

Python爬蟲中，除了urlib()外，還有一個使用的比較多的HTTP請求庫——requests。這個庫也是常用於HTTP請求模組，它使用Python語言編寫，可以方便的對網頁進行爬取，是學習Python比較好的HTTP請求模組。

007 Python網路爬蟲與資訊提取 中國大學排名爬蟲

相關推薦

007 Python網路爬蟲與資訊提取中國大學排名爬蟲