【2022.05.28】動態網頁爬取,對txt文件處理
阿新 • • 發佈:2022-05-29
之前寫爬蟲使用的都是強制等待,這麼做的話會有問題,有的時候網路環境不好的話,那麼可能始終載入不出來,所以本次採用了顯示等待
隱式等待是在載入整個網頁載入完成,所以還是使用顯示等待,等待某個元素出現,這樣會比較好一些
讀取網路路徑的檔案出了一點兒問題,以前都是讀取本地檔案的
那麼就讀取下來
from urllib.request import urlopen
textPage=urlopen(txt_url_list[0])
print(textPage.read())
但是txt是流式檔案,會有很多的轉義符號,因此還是需要一些處理
我爬取的內容是bytes型別的,還需要進行str進行轉化,才能使用字串函式
還有就是將所有的空格都壓縮為一個
from urllib.request import urlopen import re textPage=urlopen(txt_url_list[0]) content_bytes = textPage.read() print(content_bytes) content = str(content_bytes, encoding="utf8") # 處理多餘的字元,將他們全部轉為空格 content = content.replace('\t', ' ').replace('\r', ' ').replace('\n', ' ') # 合併多餘空格 content = re.sub(' +', ' ', content) print(content)
參考連結
selenium的三種等待方式(顯示等待,隱式等待,強制等待)簡單瞭解與總結_卷王之王thorne的部落格-CSDN部落格_selenium顯示等待
Python+Selenium程式執行完,瀏覽器自動關閉問題_洛神賦520的部落格-CSDN部落格_selenium瀏覽器自動關閉
Python By.CSS_SELECTOR屬性程式碼示例 - 純淨天空 (vimsky.com)
python網路爬蟲文件讀取-純文字讀取_perfecttshoot的部落格-CSDN部落格_爬蟲爬取文字
Python如何提取文字中的所有數字,原來這問題這麼難 - 雲+社群 - 騰訊雲 (tencent.com)