1. 程式人生 > 其它 >py 爬蟲網頁採集器

py 爬蟲網頁採集器

技術標籤:python

import requests

#UA :User-Agent(請求載體的身份標識)
#UA檢測:入口網站的伺服器會檢測對應請求的載體身份標識,
#       如果檢測到請求的載體身份標識為某一瀏覽器,說明該請求是一個正常請求
#       但是如果檢測到請求的載體身份標識不是某一瀏覽器,則認為是不正常請求,被拒絕
# User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36


if __name__ == '__main__':
    #UA 偽裝
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    }
    url = 'https://www.baidu.com/s'
    # url = 'https://www.baidu.com/s?wd=%E6%88%98%E7%8B%BC2'
    #處理url 攜帶的引數:封裝到字典
    kw = input('輸入要爬取的網頁關鍵詞:')
    param = {
        'wd': kw
    }
    #對指定的url 發起的請求對應的url 是攜帶引數的,並且求情過程中處理了引數
    response = requests.get(url=url,params=param,headers=headers)
    page_text = response.text

    fileName = kw+'.html'
    with open(fileName,'w',encoding='utf-8') as pf:
        pf.write(page_text)
    print(fileName,'儲存成功!')