1. 程式人生 > 其它 >Python簡單爬蟲

Python簡單爬蟲

本部落格主要用來記錄一下學習過程中所使用的程式碼:
我們以豆瓣電影網為例子,來爬取上面的資料:
連結:豆瓣電影

import requests
url="https://movie.douban.com/"
resp=requests.get(url)
resp.encoding="utf-8"
#print(resp.text)
f=open("douban.html","w")
f.write(resp.text)
print("over")

以上是一個非常基本並且簡單的爬取網頁原始碼的爬蟲。
但是我們可以發現爬取下來在douban.html中是沒有任何東西的,所以這個時候我們大概率是被監測到不是人工在進行網頁的訪問,而是自動化程式,這個時候就需要我們進行偽裝一下,最基礎的偽裝就是User Agent的偽裝,檢視我們自己的UA需要使用瀏覽器自帶的抓包工具,按下F12,然後在Network選項中重新重新整理網頁,在抓獲的包中,我們就能夠獲得我們想要的UA資訊

import requests
url="https://movie.douban.com/"
#反爬可以在這裡加一個頭
dic={# 這裡dic代表的時請求頭,是一個字典變數
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62"
}
#然後下面的請求改一下就可以了
resp=requests.get(url,headers=dic)
#resp=requests.get(url)
resp.encoding="utf-8"# windows系統必須加這個否則讀取中文的時候可能會出現亂碼的情況
#print(resp.text)
f=open("douban.html","w",encoding="utf-8")#windows系統一定要寫encoding="utf-8"
f.write(resp.text)
print("over")

這個時候我們加入了這些以後,可以發現我們可以正常爬取東西了。