Python爬蟲實戰，urllib模組，爬取中國工程院院士資訊並儲存txt

阿新 • • 發佈：2022-12-08

前言

今天用Python爬蟲中國工程院院士簡介，在這裡給需要的小夥伴們程式碼，並且給出一點小心得。

開發工具

Python版本： 3.8

相關模組：

urllib模組

re模組

time模組

環境搭建

安裝Python並新增到環境變數，pip安裝需要的相關模組即可。

頁面獲取

開啟工程院官方網站，F12或者滑鼠右鍵檢視全部院士名單，檢視原始碼，進行簡單分析，得到規律，以便後面設計正則表示式（建議使用谷歌瀏覽器）

完整程式碼實現

import re
import os
import os.path
import time
from urllib.request import urlopen

dstDir = 'YuanShi'
if not os.path.isdir(dstDir):
    os.mkdir(dstDir)

startUrl = r'http://www.cae.cn/cae/html/main/col48/column_48_1.html'
with urlopen(startUrl) as fp:
    content = fp.read().decode()

# 提取並遍歷每位大牛連結
pattern = r'<li class="name_list"><a href="(.+)" target="_blank">(.+)</a></li>'
result = re.findall(pattern, content)
for item in result:
    perUrl, name = item
    # 測試是否獲取資訊
    print(perUrl)
    # 這裡根據初爬結果進行改進
    name = name.replace('<h3>', '').replace('</h3>', '')
    name = os.path.join(dstDir, name)
    perUrl = r'http://www.cae.cn/' + perUrl
    with urlopen(perUrl) as fp:
        content = fp.read().decode()

    # 抓取簡介
    pattern = r'<p>(.+?)</p>'
    result = re.findall(pattern, content)  # 返回string中所有與pattern匹配的全部字串,返回形式為陣列。
    if result:
        intro = re.sub('(<a.+</a>)|(&ensp;)|(&nbsp);', '', '\n'.join(result))
        with open(name + '.txt', 'w', encoding='utf8') as fp:
            fp.write(intro)

最後

今天的分享到這裡就結束了，感興趣的朋友也可以去試試哈

對文章有問題的，或者有其他關於python的問題，可以在評論區留言或者私信我哦

覺得我分享的文章不錯的話，可以關注一下我，或者給文章點贊(/≧▽≦)/

Python爬蟲實戰，urllib模組，爬取中國工程院院士資訊並儲存txt

前言今天用Python爬蟲中國工程院院士簡介，在這裡給需要的小夥伴們程式碼，並且給出一點小心得。

Python爬蟲實戰專案：簡單的爬取某度新聞

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲實戰，requests模組，Python爬取網易雲歌曲並儲存本地

前言今天給大家簡單演示的爬取了一下某易雲歌曲的排行榜資訊,最後將音樂儲存到本地

python爬蟲開發之urllib模組詳細使用方法與例項全解

爬蟲所需要的功能，基本上在urllib中都能找到，學習這個標準庫，可以更加深入的理解後面更加便利的requests庫。

爬蟲實戰：圖片的批量爬取

1. 找好練習網站（不要惡意爬取，爬取前面10也即可，避免給網站造成壓力）

python爬蟲學習（一）requests爬取dytt下載地址

當網址有加密傳送安全證書時可以使用verify=False，因為dytt利用的字元編碼是gb2312，所以解碼也要用gb2312

Python爬蟲入門案例教學：批量爬取彼岸桌面4K超清美女桌布

先圖片開路環境介紹 python 3.6 / 3.8 pycharm 編輯器 requests parsel os 檔案操作在cmd裡面就可以進行安裝 pip install requests

【python爬蟲】遊俠網部分新聞爬取

最後效果展示【用網頁表格的形式展示爬取的資料】用pyinstaller打包成exe了【python3.6 可執行的環境多一些】

使用Python爬取扇貝每日一句並儲存

技術標籤：Python小工具python爬蟲經驗分享windows xprequest 更進一步上一篇文章，在 windows xp 上使用 Python 獲取扇貝單詞每日一句中通過修改博Livathan`利維坦獲取愛詞霸每日一句的python檔案，成功輸出

爬蟲爬取鏈家網資訊並可視化

程式碼結構 1.匯入庫點選檢視程式碼import requests import parsel import time import random import csv

Python爬蟲實戰，openpyxl模組學習，爬取房價資訊並簡單的資料分析

前言利用Python爬取房價資訊並進行簡單的資料分析 Ok，讓我們開始吧~~~ 開發工具

Python爬蟲實戰，argparse模組，Python模擬登入爬取網易雲個人聽歌排行榜

前言那麼今天我們就來爬一波網抑雲個人聽歌排行榜吧。讓我們愉快地開始吧~

Python爬蟲實戰，requests+xlwt模組，爬取螺螄粉商品資料（附原始碼）

前言今天給大家介紹的是Python爬取螺螄粉商品資料，在這裡給需要的小夥伴們程式碼，並且給出一點小心得。

Python爬蟲實戰，requests+openpyxl模組，爬取手機商品資訊資料（附原始碼）

前言今天給大家介紹的是Python爬取手機商品資訊資料，在這裡給需要的小夥伴們程式碼，並且給出一點小心得。

Python爬蟲實戰：自動化登入網站，爬取商品資料

前言隨著網際網路時代的到來，人們更加傾向於網際網路購物。某東又是電商行業的巨頭，在某東平臺中有很多商家資料。今天帶大家使用python+selenium工具獲取這些公開的商家資料

Python爬蟲實戰，QQ音樂爬取全部歌曲

前景介紹最近小夥伴們聽歌的興趣大漲，網抑雲綜合症已經遍佈各地。咱們再來抬高一波QQ音樂的熱度吧。

python爬蟲實戰，超簡單爬取抖音無水印視訊

目錄一、抖音視訊分析二、分析複製的短連結三、分析返回的資料四、下載原始碼

Python爬蟲實戰，Scrapy實戰，爬取並簡單分析知網中國專利資料

前言今天我們就用scrapy爬一波知網的中國專利資料並做簡單的資料視覺化分析唄。讓我們愉快地開始吧~

Python爬蟲實戰，argparse模組，Github使用者粉絲資料爬蟲

前言主要目標是爬取Github上指定使用者的粉絲資料以及對爬取到的資料進行一波簡單的視覺化分析。

Python爬蟲實戰，爬取A股公司資料，簡單分析A股公司並生成詞雲

前言利用Python爬取並簡單分析A股公司資料。讓我們愉塊地開始吧~ 開發工具 Python版本：3.6.4