作業系統經典同步問題

阿新 • • 發佈：2021-10-08

碼雲地址：https://gitee.com/a2625113421/data-acquisition-practice-i

作業①：

1）、大學軟工排名資訊的爬取

– 要求：用urllib和re庫方法定向爬取給定網址https://www.shanghairanking.cn/rankings/bcsr/2020/0812的資料。
– 輸出資訊：

2020排名	全部層次	學校名稱	總分
1	前2%	清華大學	1661.0

過程：
1.向頁面傳送請求，獲取原始碼：

def get_html(url):
    try:
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9pre) Gecko/2008072421 Minefield/3.0.2pre"}
        req = urllib.request.Request(url, headers=headers)
        data = urllib.request.urlopen(req)
        data = data.read()
        data = data.decode()
        return data
    except Exception as err:
        print(err)

2.利用正則表示式匹配資料並存入相應列表：

def fill_univ_list(ulist,html):
    while True:
        reg = r'(<div class="ranking" data-v-68e330ae>\s+)(\d+)'
        rank = re.search(reg,html)
        reg = r'(<td data-v-68e330ae>\s+)([\u4e00-\u9fa5]\d+%)'
        level = re.search(reg,html)
        reg = r'(data-v-b80b4d60>)([\u4e00-\u9fa5]+)'
        name = re.search(reg,html)
        reg = r'(<td data-v-68e330ae>\s+)(\d+.\d)'
        ponits = re.search(reg, html)
        if rank != None:
            ulist.append([rank.group(2),level.group(2),name.group(2),ponits.group(2)])
            html = html[name.end():]
        else:
            break

3.輸出

def print_ulist(ulist):
    tplt = "{0:^10}\t{1:{4}^10}\t{2:{4}^10}\t{3:^10}"
    print(tplt.format("2020排名", "全部層次", "學校名稱","總分", chr(12288)))
    for u in ulist:
        u[1] = strB2Q(u[1])
        print(tplt.format(u[0], u[1], u[2], u[3], chr(12288)))

4.結果

2）、心得體會

此次作業只允許使用urllib和re庫定向爬取網址，所以通過這次實驗我進一步學習和鞏固Re知識，運用正則表示式也更加得心應手了

作業②

1）、城市實時空氣質量資訊的爬取

– 要求：用requests和Beautiful Soup庫方法設計爬取https://datacenter.mee.gov.cn/aqiweb2/AQI實時報。
– 輸出資訊：

序號	城市	AQI	PM2.5	SO2	NO2	CO	首要汙染物
1	北京市	55	6	5	1.0	225	——

過程：
1.向頁面傳送請求，獲取原始碼：

def get_html(url):
    try:
        headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9pre) Gecko/2008072421 Minefield/3.0.2pre"}
        r = requests.get(url, timeout = 30, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
    except:
        return "產生異常"
    return r.text

2.用BS4匹配相應td標籤

def myFilter(tag):
    return (tag.name=="tbody" and tag.has_attr("id") and tag["id"]=="legend_01_table")

def get_AQI(html):
    AQI_list = []
    soup = BeautifulSoup(html, "lxml")
    for tr in soup.find(myFilter).children:
        if isinstance(tr, bs4.element.Tag):
            for td in tr.find_all("td"):
                AQI_list.append(td.text.strip())
    return AQI_list

3.輸出

def print_AIQ(AQI_list):
    tplt = tplt = "{0:^10}\t{1:{8}^10}\t{2:^10}\t{3:^10}\t{4:^10}\t{5:^10}\t{6:^10}\t{7:{8}^10}"
    print(tplt.format("序號", "城市", "AQI", "PM2.5", "SO2", "NO2", "CO", "首要汙染物", chr(12288)))
    for i in range(int(len(AQI_list)/9)):
        print(tplt.format(i, AQI_list[i*9], AQI_list[i*9+1], AQI_list[i*9+2], AQI_list[i*9+4],
                          AQI_list[i*9+5], AQI_list[i*9+6], AQI_list[i*9+8], chr(12288)))

4.結果

2）、心得體會

本題主要是對Requests和BeautifulSoup的再複習，與之前的做過練習很相似，內容更多了。採用將爬取到的資訊統統添入列表，最後按照對應位置讀取需要的資料。

作業③

1）、福大新聞網圖片的爬取

– 要求：使用urllib和requests和re爬取一個給定網頁https://news.fzu.edu.cn/爬取該網站下的所有圖片
– 輸出資訊：將自選網頁內的所有jpg檔案儲存在一個資料夾中

過程：
1.向頁面傳送請求，獲取網頁原始碼：

def get_html_request(url):
    try:
        headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9pre) Gecko/2008072421 Minefield/3.0.2pre"}
        r = requests.get(url, timeout = 30, headers=headers)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
    except:
        return "產生異常"
    return r.text

def get_html_urllib(url):
    try:
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9pre) Gecko/2008072421 Minefield/3.0.2pre"}
        req = urllib.request.Request(url, headers=headers)
        data = urllib.request.urlopen(req)
        data = data.read()
        data = data.decode()
        return data
    except Exception as err:
        print(err)

2.利用正則表示式匹配圖片下載連結：

def download_jps(html):
    reg = '<img src="/([a-zA-z]+[^\s"]*)'
    imagelist = re.compile(reg).findall(html)
    i = 1
    for image in imagelist:
        imageurl = "http://news.fzu.edu.cn/" + image
        response = requests.get(imageurl)
        img = response.content
        with open("./picture/第" + str(i) +"張圖片.jpg", "wb" ) as f:
            f.write(img)
        i += 1
    print("下載完成")

3.結果：

2）、心得體會

此題要求使用urllib和requests和re庫爬取一個給定網址的圖片資訊。通過這次作業使我對urllib和requests庫有更清晰的認識，進一步體會二者區別，同時也是又一次對正則表示式的練習。

作業系統經典同步問題

作業系統經典同步問題生產者—消費者問題問題描述一組生產者程序和一組消費者程序共享一個初始為空、大小為 n 的緩衝區，只有緩衝區沒滿時，生產者才把訊息放入緩衝區，否則必須等待；只有緩衝區不空時，消費

【作業系統】-同步互斥-【經典問題】-單生產者單消費者問題

技術標籤：作業系統【同步關係】緩衝區不滿才能繼續生產，緩衝區不空才能夠消費

WIN32生產消費經典同步但是以消耗時間為代價

// Event0616.cpp : Defines the entry point for the console application. // #include \"stdafx.h\" #include <WINDOWS.H>

作業系統經典演算法目錄

介紹：因為要做作業系統，所以需要先用rust標準庫實現一系列作業系統中程序、記憶體、檔案等操作所需要的演算法，練習rust的同時以便後面用到

UDP協議、作業系統、同步與非同步、阻塞與非阻塞

UDP協議 # 客戶端 import socket server = socket.socket(type=socket.SOCK_DGRAM) server.bind((\'127.0.0.1\', 8888))

主宰作業系統的經典演算法

此篇文章帶你梳理一下作業系統中都出現過哪些演算法程序和執行緒管理中的演算法

<作業系統>程序同步程序互斥

Intro 為了實現多道程式環境，作業系統設計引入了程序Process的概念。為了協調程序間的相互制約，則又引入了程序同步程序互斥的概念。為了更直觀地處理程序相互制約的問題，我們把一次僅允許一個程序使用的資源稱為臨

作業系統-李治軍-L16-程序同步與訊號量

程序同步與訊號量引例：多程序合作要溝通好。總不能售票員還在賣票的時候就開車。

計算機作業系統-訊號量經典問題

技術標籤：計算機作業系統生產者-消費者（合作關係）不能生產者在生產的時候消費者進行消費反之也不行如果倉庫堆滿了生產者不能再進行生產如果倉庫空了消費者不能再進行消費

計算機作業系統之期末考試複習——程序的互斥和同步問題

技術標籤：計算機作業系統作業系統程序同步程序互斥訊號量臨界資源基礎概念

《魔獸世界》官宣：《燃燒的遠征》舊世經典 6 月 2 日全球同步開放，支援迅雷高速下載

6 月 1 日訊息《魔獸世界》官宣，6 月 2 日與全球同步開放《燃燒的遠征》，《燃燒的遠征》前夕補丁現已上線。迅雷方面表示支援高速下載，無需解壓，即下即玩。

如何做到作業系統和併發同步結合？順利通過阿里Java崗面試

如何做到作業系統和併發同步結合？順利通過阿里Java崗面試所以，我認為在你選擇之前不妨好好想想什麼是Java？你適不適合從事這份工作？

【作業系統學習】同步機制（九）

1. 同步機制概念獨立的執行緒不和其他執行緒共享資源或狀態確定性->輸入狀態決定結果可重現->能夠重現起始條件排程順序不重要合作執行緒在多個執行緒中共享狀態不確定性不可重現不確定性和不可重現意味著bug可

作業系統——程序管理——PV原語解決同步和互斥問題

作業系統——程序管理——PV原語解決同步和互斥問題答：PV操作的含義：PV操作由P操作原語和V操作原語組成（原語是不可中斷的過程），對訊號量進行操作。PV操作的意義：我們用訊號量及PV操作來實現程序的同步和互斥。

【作業系統】經典處理機排程演算法

本篇文章學習自強連通計算機考研先來先服務（FCFS）排程演算法這個演算法是作業系統中最簡單的排程演算法，顧名思義，就是誰先來誰先用處理機，就和我們食堂排隊打飯一樣。可以看的出來，這種演算法是講究公平的

總結：iOS中多執行緒的經典崩潰

前言 iOS崩潰是讓iOS開發人員比較頭痛的事情，app崩潰了，說明程式碼寫的有問題，這時如何快速定位到崩潰的地方很重要。除錯階段是比較容易找到出問題的地方的，但是已經上線的app並分析崩潰報告就比較麻煩了。

iOS 中跨頁面狀態同步方案比較

由於團隊希望專案能夠去 CoreData 化，而以往狀態同步都是依賴於 CoreData 的 NSFetchedResultsController。因此去 CoreData 則必須尋找一種替代方案來進行狀態同步。

rsync + inotify 實現檔案實時雙向自動同步

更多技術文章，請關注：github.com/yongxinz/te… 簡介隨著應用系統規模的不斷擴大，對資料的安全性和可靠性也提出更好的要求，rsync 在高階業務系統中也逐漸暴露出了很多不足。

MySQL讀寫分離主從複製原理？主從同步時延問題？

面試題你們有沒有做 MySQL 讀寫分離？如何實現 MySQL 的讀寫分離？MySQL 主從複製原理的是啥？如何解決 MySQL 主從同步的延時問題？

?史上最全的分散式資料同步中間間canal 之結束篇

前言文字已收錄至我的GitHub倉庫，歡迎Star：github.com/bin39232820…種一棵樹最好的時間是十年前，其次是現在

作業系統 經典同步問題

碼雲地址：https://gitee.com/a2625113421/data-acquisition-practice-i

作業①：

1）、大學軟工排名資訊的爬取

2）、心得體會

作業②

1）、 城市實時空氣質量資訊的爬取

2）、心得體會

作業③

1）、福大新聞網圖片的爬取

2）、心得體會

相關推薦

作業系統經典同步問題

1）、城市實時空氣質量資訊的爬取