1. 程式人生 > 其它 >資料採集與融合技術_實驗一

資料採集與融合技術_實驗一

  • 作業①:

    1)大學軟工排名資訊的爬取

– 要求:用urllib和re庫方法定向爬取給定網址https://www.shanghairanking.cn/rankings/bcsr/2020/0812的資料。
– 輸出資訊:

2020排名 全部層次 學校名稱 總分
1 前2% 清華大學 1661.0

完成過程:
1.向頁面傳送請求,獲取原始碼:

2.利用正則表示式匹配資料並存入相應列表:

3.處理列表元素並列印:

4.結果展示:

2)心得體會:此次作業老師只允許使用urllib和re庫定向爬取網址,這對我們的正則表示式的使用熟練度有一定的要求。
所以通過這次實驗我對正則表示式的理解更加的清晰,使用也更加的熟練。

  • 作業②

    1)城市實時空氣質量資訊的爬取
    – 要求:用requests和Beautiful Soup庫方法設計爬取https://datacenter.mee.gov.cn/aqiweb2/AQI實時報。
    – 輸出資訊:

    序號 城市 AQI PM2.5 SO2 NO2 CO 首要汙染物
    1 北京市 55 6 5 1.0 225 ——

    完成過程:
    1.向頁面傳送請求,獲取原始碼:

    2.建立soup物件,匹配相應td節點

    3.列印節點資訊

    4.結果展示:

    2)心得體會:這題老師要求使用requests和Beautiful Soup庫方法設計爬取網址資訊。
    通過此題的完成,我明白了Beautiful Soup庫方法使用的便利,也熟練的掌握了css語法操作,同時也更加熟練的使用requests庫的方法。

  • 作業③

    1)福大新聞網圖片的爬取
    – 要求:使用urllib和requests和re爬取一個給定網頁https://news.fzu.edu.cn/爬取該網站下的所有圖片
    – 輸出資訊:將自選網頁內的所有jpg檔案儲存在一個資料夾中

    完成過程(urllib庫):
    1.向頁面傳送請求,獲取原始碼:

    2.利用正則表示式匹配並獲取圖片下載連結:

    3.下載圖片:

    完成過程(requests庫):
    1.向頁面傳送請求,獲取原始碼:

    2.利用正則表示式匹配圖片下載連結:

    3.下載圖片:

    4.結果展示:

    2)心得體會:此題老師要求使用urllib和requests和re庫爬取一個給定網址的圖片資訊。
    通過此題實踐,我掌握了從網頁上儲存圖片至本地的urllib方法和requests方法,同時也對正則表示式的使用更加的熟練。

  • 附錄

三題完整程式碼