py 爬蟲網頁採集器
阿新 • • 發佈:2020-12-12
技術標籤:python
import requests #UA :User-Agent(請求載體的身份標識) #UA檢測:入口網站的伺服器會檢測對應請求的載體身份標識, # 如果檢測到請求的載體身份標識為某一瀏覽器,說明該請求是一個正常請求 # 但是如果檢測到請求的載體身份標識不是某一瀏覽器,則認為是不正常請求,被拒絕 # User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 if __name__ == '__main__': #UA 偽裝 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36' } url = 'https://www.baidu.com/s' # url = 'https://www.baidu.com/s?wd=%E6%88%98%E7%8B%BC2' #處理url 攜帶的引數:封裝到字典 kw = input('輸入要爬取的網頁關鍵詞:') param = { 'wd': kw } #對指定的url 發起的請求對應的url 是攜帶引數的,並且求情過程中處理了引數 response = requests.get(url=url,params=param,headers=headers) page_text = response.text fileName = kw+'.html' with open(fileName,'w',encoding='utf-8') as pf: pf.write(page_text) print(fileName,'儲存成功!')