python爬蟲爬取網頁資料並解析資料

阿新 • • 發佈：2020-09-21

1.網路爬蟲的基本概念

網路爬蟲（又稱網路蜘蛛，機器人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。
只要瀏覽器能夠做的事情，原則上，爬蟲都能夠做到。

2.網路爬蟲的功能

python爬蟲爬取網頁資料並解析資料

網路爬蟲可以代替手工做很多事情，比如可以用於做搜尋引擎，也可以爬取網站上面的圖片，比如有些朋友將某些網站上的圖片全部爬取下來，集中進行瀏覽，同時，網路爬蟲也可以用於金融投資領域，比如可以自動爬取一些金融資訊，並進行投資分析等。

有時，我們比較喜歡的新聞網站可能有幾個，每次都要分別開啟這些新聞網站進行瀏覽，比較麻煩。此時可以利用網路爬蟲，將這多個新聞網站中的新聞資訊爬取下來，集中進行閱讀。

有時，我們在瀏覽網頁上的資訊的時候，會發現有很多廣告。此時同樣可以利用爬蟲將對應網頁上的資訊爬取過來，這樣就可以自動的過濾掉這些廣告，方便對資訊的閱讀與使用。

有時，我們需要進行營銷，那麼如何找到目標客戶以及目標客戶的聯絡方式是一個關鍵問題。我們可以手動地在網際網路中尋找，但是這樣的效率會很低。此時，我們利用爬蟲，可以設定對應的規則，自動地從網際網路中採集目標使用者的聯絡方式等資料，供我們進行營銷使用。

有時，我們想對某個網站的使用者資訊進行分析，比如分析該網站的使用者活躍度、發言數、熱門文章等資訊，如果我們不是網站管理員，手工統計將是一個非常龐大的工程。此時，可以利用爬蟲輕鬆將這些資料採集到，以便進行進一步分析，而這一切爬取的操作，都是自動進行的，我們只需要編寫好對應的爬蟲，並設計好對應的規則即可。

除此之外，爬蟲還可以實現很多強大的功能。總之，爬蟲的出現，可以在一定程度上代替手工訪問網頁，從而，原先我們需要人工去訪問網際網路資訊的操作，現在都可以用爬蟲自動化實現，這樣可以更高效率地利用好網際網路中的有效資訊。

3.安裝第三方庫

在進行爬取資料和解析資料前，需要在Python執行環境中下載安裝第三方庫requests。

在Windows系統中，開啟cmd（命令提示符）介面，在該介面輸入pip install requests,按回車鍵進行安裝。（注意連線網路）如下圖

python爬蟲爬取網頁資料並解析資料

安裝完成，如圖

python爬蟲爬取網頁資料並解析資料

4.爬取淘寶首頁

# 請求庫
import requests
# 用於解決爬取的資料格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的網頁連結
r= requests.get("https://www.taobao.com/")
# 型別
# print(type(r))
print(r.status_code)
# 中文顯示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text

執行結果，如圖

python爬蟲爬取網頁資料並解析資料

5.爬取和解析淘寶網首頁

# 請求庫
import requests
# 解析庫
from bs4 import BeautifulSoup
# 用於解決爬取的資料格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的網頁連結
r= requests.get("https://www.taobao.com/")
# 型別
# print(type(r))
print(r.status_code)
# 中文顯示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text
# 再次封裝，獲取具體標籤內的內容
bs = BeautifulSoup(result,'html.parser')
# 具體標籤
print("解析後的資料")
print(bs.span)
a={}
# 獲取已爬取內容中的script標籤內容
data=bs.find_all('script')
# 獲取已爬取內容中的td標籤內容
data1=bs.find_all('td')
# 迴圈列印輸出
for i in data:
 a=i.text
 print(i.text,end='')
 for j in data1:
  print(j.text)

執行結果，如圖

python爬蟲爬取網頁資料並解析資料

6.小結

在對網頁程式碼進行爬取操作時，不能頻繁操作，更不要將其設定成死迴圈模式（每一次爬取則為對網頁的訪問，頻繁操作會導致系統崩潰，會追究其法律責任）。

所以在獲取網頁資料後，將其儲存為本地文字模式，再對其進行解析（不再需要訪問網頁）。

以上就是python爬蟲爬取網頁資料並解析資料的詳細內容，更多關於python爬取網頁資料並解析的資料請關注我們其它相關文章！

python爬蟲爬取網頁資料並解析資料

python爬蟲爬取網頁資料並解析資料

python爬蟲爬取安居客並進行簡單資料分析

Python爬蟲爬取百度翻譯之資料提取方法

Python爬蟲爬取、解析資料操作示例

Python爬蟲爬取Bilibili彈幕過程解析

Python爬蟲爬取電影票房資料及圖表展示操作示例

Python爬蟲爬取杭州24時溫度並展示操作示例

Python爬蟲爬取部落格實現視覺化過程解析

Python實現爬取網頁中動態載入的資料

教你如何使用Python爬蟲爬取美團美食資料！外賣小專家的報到了！

python爬蟲----爬取淘寶資料

python爬蟲爬取百度百科資料

【網路爬蟲學習】實戰，爬取網頁以及貼吧資料

python爬蟲爬取國家統計局2009年到2020年，統計用區劃和城鄉劃分程式碼（省市區/縣三級）並存入mysql資料庫

Python爬蟲爬取煎蛋網圖片程式碼例項

python爬蟲爬取筆趣網小說網站過程圖解

python爬蟲爬取幽默笑話網站

python爬蟲爬取監控教務系統的思路詳解

Python爬蟲爬取百度搜索內容程式碼例項

Python爬蟲爬取新聞資訊案例詳解

python爬蟲爬取網頁資料並解析資料

相關推薦