1. 程式人生 > 其它 >【2022.05.28】動態網頁爬取,對txt文件處理

【2022.05.28】動態網頁爬取,對txt文件處理

之前寫爬蟲使用的都是強制等待,這麼做的話會有問題,有的時候網路環境不好的話,那麼可能始終載入不出來,所以本次採用了顯示等待

隱式等待是在載入整個網頁載入完成,所以還是使用顯示等待,等待某個元素出現,這樣會比較好一些

讀取網路路徑的檔案出了一點兒問題,以前都是讀取本地檔案的

那麼就讀取下來

from urllib.request import urlopen
textPage=urlopen(txt_url_list[0])
print(textPage.read())

但是txt是流式檔案,會有很多的轉義符號,因此還是需要一些處理

我爬取的內容是bytes型別的,還需要進行str進行轉化,才能使用字串函式

還有就是將所有的空格都壓縮為一個

from urllib.request import urlopen
import re
textPage=urlopen(txt_url_list[0])
content_bytes = textPage.read()
print(content_bytes)
content = str(content_bytes, encoding="utf8")
# 處理多餘的字元,將他們全部轉為空格
content = content.replace('\t', ' ').replace('\r', ' ').replace('\n', ' ')
# 合併多餘空格
content = re.sub(' +', ' ', content)
print(content)

參考連結

selenium的三種等待方式(顯示等待,隱式等待,強制等待)簡單瞭解與總結_卷王之王thorne的部落格-CSDN部落格_selenium顯示等待

Python+Selenium程式執行完,瀏覽器自動關閉問題_洛神賦520的部落格-CSDN部落格_selenium瀏覽器自動關閉

Python By.CSS_SELECTOR屬性程式碼示例 - 純淨天空 (vimsky.com)

python網路爬蟲文件讀取-純文字讀取_perfecttshoot的部落格-CSDN部落格_爬蟲爬取文字

Python如何提取文字中的所有數字,原來這問題這麼難 - 雲+社群 - 騰訊雲 (tencent.com)