【2022.05.28】動態網頁爬取，對txt文件處理

阿新 • • 發佈：2022-05-29

之前寫爬蟲使用的都是強制等待，這麼做的話會有問題，有的時候網路環境不好的話，那麼可能始終載入不出來，所以本次採用了顯示等待

隱式等待是在載入整個網頁載入完成，所以還是使用顯示等待，等待某個元素出現，這樣會比較好一些

讀取網路路徑的檔案出了一點兒問題，以前都是讀取本地檔案的

那麼就讀取下來

from urllib.request import urlopen
textPage=urlopen(txt_url_list[0])
print(textPage.read())

但是txt是流式檔案，會有很多的轉義符號，因此還是需要一些處理

我爬取的內容是bytes型別的，還需要進行str進行轉化，才能使用字串函式

還有就是將所有的空格都壓縮為一個

from urllib.request import urlopen
import re
textPage=urlopen(txt_url_list[0])
content_bytes = textPage.read()
print(content_bytes)
content = str(content_bytes, encoding="utf8")
# 處理多餘的字元，將他們全部轉為空格
content = content.replace('\t', ' ').replace('\r', ' ').replace('\n', ' ')
# 合併多餘空格
content = re.sub(' +', ' ', content)
print(content)

參考連結

selenium的三種等待方式（顯示等待，隱式等待，強制等待）簡單瞭解與總結_卷王之王thorne的部落格-CSDN部落格_selenium顯示等待

Python+Selenium程式執行完，瀏覽器自動關閉問題_洛神賦520的部落格-CSDN部落格_selenium瀏覽器自動關閉

Python By.CSS_SELECTOR屬性程式碼示例 - 純淨天空 (vimsky.com)

python網路爬蟲文件讀取-純文字讀取_perfecttshoot的部落格-CSDN部落格_爬蟲爬取文字

Python如何提取文字中的所有數字，原來這問題這麼難 - 雲+社群 - 騰訊雲 (tencent.com)

【2022.05.28】動態網頁爬取，對txt文件處理

之前寫爬蟲使用的都是強制等待，這麼做的話會有問題，有的時候網路環境不好的話，那麼可能始終載入不出來，所以本次採用了顯示等待

【2022.05.20】對無驗證碼的整個網頁公告的內容進行爬取

學習內容 xpath，以及python字串替換， url自適應拼接，因為很多網站的href不完整

【2022.05.24】對無驗證碼的整個網頁公告的內容進行自適應爬取(3)

前言今天發現昨天的想法有誤了，動態獲取到的html檔案，後面如果使用requests去獲取的話就是靜態html檔案，那麼就有可能得不到真實的html檔案，大部分網站是不會變的，但是像大連交易所的網站就會動態載入，需要使用

【2022-01-28】勤奮和從容並不衝突

20:00 人們往往把慾望的滿足看成幸福。 ——列夫·托爾斯泰下班前，還是希望把日記寫完。明天開始，就不打算過來上班了, 因為我們的甲方客戶也一一放假了，勞累了一年的同事也一個個提前請假回去了。按公司以往

【2022-03-28】連嶽摘抄

23:59 相信時間，時間對善良有利，對智慧和光明有利，對YM不利，對狹隘無不利。

【2022-05-03】連嶽摘抄

23:59 我們看待事物的方式，決定著一切。而不是事物本身如何。

【2022-05-04】連嶽摘抄

23:59 年輕人，我們要鼓足勇氣！不論現在有人要怎樣與我們為難，我們的前途一定是美好的！

【2022-05-09】成長的感覺

19:00 讀書的道理在於學習，你要從別人的錯誤中學習，因為你沒有時間去體會所有的過失。

【2022-05-08】連嶽摘抄

23:59 我的生命只有一次，所以，我必須在當下立即對他人表達善良和美好。我不可以怠慢，也不可以拖沓，因為，我的生命只有一次。

【2022-05-06】基因的祕密

18:00 這個世界，總有你不喜歡的人，也總有人不喜歡你。這都很正常。而且，無論你有多好，也無論對方有多好，都苛求彼此不得。因為，好不好是一回事，喜歡不喜歡是另一回事。

【2022-05-10】太慢又太長

22:00 回顧我的人生道路，我在一個動盪的年代出生、成長，創作生涯與生活道路是不能分割的。如果生命還能反覆一次，我一定不會像今生這樣活著，但既然生命不可能反覆，那麼我還是面對現實吧。做任何事情都不可能不勞

【2022-05-15】盡力了就好

23:00 我一直希望自己成為一個對社會有用的人，對成敗得失並不是非常在意，尤其是我不管遇到什麼困難始終努力，即使做不到也就算了，並不為此而煩惱，因為我已經做了該做的。

【2022-05-16】思和學乃人生主幹路徑

22:00 要是你想達到你的目的地，你必須用溫和一點的態度向人家問話。

【2022-05-17】職有職規

19:00 天下事的人力作為，到水盡山窮之時，自有路走，只要切實去做。

【2022.05.19】在windows下部署docker服務

開啟hyper-V docker會用到的虛擬化在管理員powershell中輸入 Enable-WindowsOptionalFeature -Online -FeatureName Microsoft-Hyper-V -All

【2022-05-19】接受才能發現

18:00 你一直是我的朋友，這件事本身就是一件了不起的事。我為你結網，因為喜歡你。再說，生命到底是什麼啊？我們出生，我們活上一陣子，死去。一隻蜘蛛，一生只忙著捕捉和吃蒼蠅是毫無意義的，通過幫助你，也許可以

【2022-05-20】理可頓悟，事須漸修

18:00 愛情必須時時更新、生長、創造。 ——LX

【2022-05-21】努力的方向錯了

12:00 有些人認為創新就是改變，我們從來不這麼看。我認為，讓社會變得更好，就是創新。

【2022-05-22】學習為了自律

12:00 我們給予人的快樂有其可愛的一面，它不像任何反光會漸漸衰弱，而是返回到我們身上時，會更光輝燦爛。

【2022-05-23】換個角度看看

18:00 理可頓悟，事須漸修，應次第盡。 ——《楞嚴經》