資料採集與融合技術_實驗一
-
作業①:
1)大學軟工排名資訊的爬取
– 要求:用urllib和re庫方法定向爬取給定網址https://www.shanghairanking.cn/rankings/bcsr/2020/0812的資料。
– 輸出資訊:
2020排名 | 全部層次 | 學校名稱 | 總分 |
---|---|---|---|
1 | 前2% | 清華大學 | 1661.0 |
完成過程:
1.向頁面傳送請求,獲取原始碼:
2.利用正則表示式匹配資料並存入相應列表:
3.處理列表元素並列印:
4.結果展示:
2)心得體會:此次作業老師只允許使用urllib和re庫定向爬取網址,這對我們的正則表示式的使用熟練度有一定的要求。
所以通過這次實驗我對正則表示式的理解更加的清晰,使用也更加的熟練。
-
作業②
1)城市實時空氣質量資訊的爬取
– 要求:用requests和Beautiful Soup庫方法設計爬取https://datacenter.mee.gov.cn/aqiweb2/AQI實時報。
– 輸出資訊:序號 城市 AQI PM2.5 SO2 NO2 CO 首要汙染物 1 北京市 55 6 5 1.0 225 —— 完成過程:
1.向頁面傳送請求,獲取原始碼:
2.建立soup物件,匹配相應td節點
3.列印節點資訊
4.結果展示:
2)心得體會:這題老師要求使用requests和Beautiful Soup庫方法設計爬取網址資訊。
通過此題的完成,我明白了Beautiful Soup庫方法使用的便利,也熟練的掌握了css語法操作,同時也更加熟練的使用requests庫的方法。 -
作業③
1)福大新聞網圖片的爬取
– 要求:使用urllib和requests和re爬取一個給定網頁https://news.fzu.edu.cn/爬取該網站下的所有圖片
– 輸出資訊:將自選網頁內的所有jpg檔案儲存在一個資料夾中完成過程(urllib庫):
1.向頁面傳送請求,獲取原始碼:
2.利用正則表示式匹配並獲取圖片下載連結:
3.下載圖片:
完成過程(requests庫):
1.向頁面傳送請求,獲取原始碼:
2.利用正則表示式匹配圖片下載連結:
3.下載圖片:
4.結果展示:
2)心得體會:此題老師要求使用urllib和requests和re庫爬取一個給定網址的圖片資訊。
通過此題實踐,我掌握了從網頁上儲存圖片至本地的urllib方法和requests方法,同時也對正則表示式的使用更加的熟練。 -
附錄