爬取搜狗指定詞條的搜尋結果

阿新 • • 發佈：2021-01-25

首先用搜狗搜尋波曉張
發現後面的引數很多，這麼多引數是否都是我們需要使用的呢？
發現query=波曉張這個內容才是對應我們需要使用的，後面無用的引數我們先刪除掉，然後判斷這個url是否是我們需要的。
去除後面的引數進行重新的搜尋此時我們需要將前面的sogou.com/web的對應的引數和後面的query=波曉張切割開來，提取出後面相應的引數，然後分別傳入get的方法之中，對應的程式碼如下：

#UA:User-Agent{請求載體的身份標識}
#UA偽裝：入口網站的伺服器會檢測對應請求的載體身份標識
#如果檢測到請求的載體身份標識為某一款瀏覽器，說明該請求是一個正常的請求
#但是如果檢測到請求的檢測身份標識不是基於某一款瀏覽器的，則認為是不正常的 

#請求(爬蟲),則伺服器端就很有可能拒絕該次請求

#UA偽裝：讓爬蟲對應的請求載體身份標識偽裝成某一款瀏覽器
import  requests
#第一步：設定url
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'
}
url = 'https://www.sogou.com/web'
#處理url攜帶的引數：封裝到字典中,web後面的？號是否保留都可以
kw = input 
('enter a word:')
param = {
    'query':kw
}
#只有一組引數的時候作為字典的鍵值，如果我們有多組
#引數的時候，多組引數都可以作為相應字典的鍵值
#第二步：發起請求
#對指定的url發起的請求對應的url是攜帶引數的，
#並且請求過程中處理了引數
response = requests.get(url=url,params=param,headers=headers)
#get(url,params,kwargs)
#在域名後面放入了params，相當於動態拼接出了引數
page_text = response.text
fileName = kw+ 
'.html'
with  open(fileName,'w',encoding='utf-8') as fp:
    fp.write(page_text)
print(fileName,'儲存成功!!!')

爬取搜狗指定詞條的搜尋結果

爬取搜狗指定詞條的搜尋結果

【Python爬蟲】：爬取（谷歌/百度/搜狗）的搜尋結果

python-爬取搜狗搜尋筆記本

python 圖片爬蟲系列三——爬取搜狗圖片庫中的圖片

python使用beautifulsoup4爬取酷狗音樂程式碼例項

python爬取酷狗音樂

爬取酷狗音樂無框架和有框架版

基於Python爬取搜狐證券股票過程解析

python爬蟲教程：爬取酷狗音樂，零基礎小白也能爬取哦

scrapy 爬取酷狗熱門歌手音樂

scrapy_redis 分散式爬取酷狗音樂

python爬蟲開發之使用python爬蟲庫requests，urllib與今日頭條搜尋功能爬取搜尋內容例項

Python爬蟲爬取百度搜索內容程式碼例項

Scrapy嘗試爬取微博熱搜

Python 爬取1688貨源重量，自動發郵件到指定郵箱（qq），設定定時執行程式

python 爬取指定網頁中的圖片（python crawls the image in the specified page）

python 爬取指定網頁中的圖片精細版（python crawls the image in the specified page fine version）

騰訊 35 億美元收下搜狗，搜尋大戰一觸即發

51job多執行緒爬取指定職業資訊資料

利用python爬取百度百科python詞條相關的1000個頁面資料

爬取搜狗指定詞條的搜尋結果

相關推薦