python獲取百度熱榜連結的例項方法

阿新 • • 發佈：2020-08-28

目標網址：

https://www.baidu.com/

要獲取的內容：

連結分析：

從下圖可以看出只需要獲取關鍵字，再構建就可以了。

完整程式碼：

importrequests
importpprint
importre
importurllib.parse

url='https://www.baidu.com/'

headers={
'Host':'www.baidu.com','Referer':'https://www.baidu.com/','User-Agent':你的User-Agent,'Cookie':你的Cookie
}

response=requests.get(url,headers=headers).content.decode('utf-8')
#獲取關鍵字
pat='"pure_title":"(.*?)"'
keyword=re.findall(pat,response,re.S)
print(len(keyword))

forhot_wordinkeyword:
#漢字不符合url標準，所以這裡需要進行url編碼
i=urllib.parse.quote(hot_word,encoding='utf-8',errors='replace')
#url構建
link=f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
print(link)

你會發現結果很長：

但其實關鍵字後面的幾個引數是可以去掉的，這樣url就沒有那麼長了。

內容擴充套件：

python 爬取簡單的百度搜索結果

爬取百度搜索結果

主要還要藉助xpath helper谷歌瀏覽器的外掛來操作更容易找到需要查詢資訊的xpath位置

還要首先了解一下百度搜索請求的引數 lm預設為0，天數限制，但是好像只有1有用。

預設每頁10條資訊，rn

pn是頁碼

from lxml import etree
import re
import requests
import string
import json
headers = {
  "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/68.0.3440.106 Safari/537.36"
}
response = requests.get('https://www.baidu.com/s?wd=騰訊視訊優惠&lm=1',headers=headers)
r = response.text
html = etree.HTML(r,etree.HTMLParser())
r1 = html.xpath('//h3')
r2 = html.xpath('//*[@class="c-abstract"]')
r3 = html.xpath('//a[@class="c-showurl"]')
for i in range(10) :
  r11 = r1[i].xpath('string(.)')
  r22 = r2[i].xpath('string(.)')
  r33 = r3[i].xpath('string(.)')
  # with open('test.txt','a',encoding='utf-8') as f:
  #   f.write(json.dumps(r11,ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r22,ensure_ascii=False) + '\n')
  #   f.write(json.dumps(r33,ensure_ascii=False) + '\n')
  print(r11,end='\n')
  print(r22,end='\n')
  print(r33)
  print()

到此這篇關於python獲取百度熱榜連結的例項方法的文章就介紹到這了,更多相關教你用python獲取百度熱榜連結內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

python獲取百度熱榜連結的例項方法

目標網址： https://www.baidu.com/ 要獲取的內容：連結分析：從下圖可以看出只需要獲取關鍵字，再構建就可以了。

python獲取系統記憶體佔用資訊的例項方法

psutil是一個跨平臺庫（http://code.google.com/p/psutil/），能夠輕鬆實現獲取系統執行的程序和系統利用率（包括CPU、記憶體、磁碟、網路等）資訊。它主要應用於系統監控，分析和限制系統資源及程序的管理。它實現了

python採集百度搜索結果帶有特定URL的連結程式碼例項

這篇文章主要介紹了python採集百度搜索結果帶有特定URL的連結程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

詳解用Python爬蟲獲取百度企業信用中企業基本資訊

一、背景希望根據企業名稱查詢其經緯度，所在的省份、城市等資訊。直接將企業名稱傳給百度地圖提供的API，得到的經緯度是非常不準確的，因此希望獲取企業完整的地理位置，這樣傳給API後結果會更加準確。

Python呼叫百度地圖和高德地圖API批量獲取國內城市地址經緯度座標

1 資料準備經過嘗試，百度地圖API需要輸入城市中文名稱才能獲取對應經緯度座標，因此先將英文的城市名稱轉為中文

python 使用百度地圖SDK獲取地址的經緯度

第一步：先進入百度地圖SDK註冊獲取AK和SK https://lbsyun.baidu.com/apiconsole/key#/home 註冊自己註冊即可，建立應用步驟如下

Python呼叫百度地圖api獲取起點終點距離和預估時長

去百度地圖開放平臺申請API的AK https://lbsyun.baidu.com/apiconsole/center#/home import pandas as pd

Python 獲取numpy.array索引值的例項

舉個例子： q=[0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15] 我想獲取其中值等於7的那個值的下標，以便於用於其他計算。

python 爬蟲百度地圖的資訊介面的實現方法

在爬蟲百度地圖的期間，就為它做了一個介面，運用的是PyQt5。得到意想不到的結果：

Python使用百度api做人臉對比的方法

安裝SDK： pip install baidu-aip 如果在pycharm裡也可以在setting----Project Interpreter---右邊綠色加號，輸入baidu，安裝baidu-aip

python實現百度OCR圖片識別過程解析

這篇文章主要介紹了python實現百度OCR圖片識別過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python利用百度雲介面實現車牌識別的示例

一個小需求---實現車牌識別。目前有兩個想法 1. 調雲線上的介面或者使用SDK做開發（配置環境和編譯第三方庫很麻煩，當然使用python可以避免這些問題）

Python基於百度AI實現OCR文字識別

百度AI功能還是很強大的，百度AI開放平臺真的是測試介面的天堂，免費介面很多，當然有量的限制，但個人使用是完全夠用的，什麼人臉識別、MQTT伺服器、語音識別等等，應有盡有。

使用Python和百度語音識別生成視訊字幕的實現

從視訊中提取音訊安裝 moviepy pip install moviepy 相關程式碼： audio_file = work_path + \'\\\\out.wav\'

詳解用Python呼叫百度地圖正/逆地理編碼API

一、背景（正）地理編碼指的是：將地理位置名稱轉換成經緯度；逆地理編碼指的是：將經緯度轉換成地理位置資訊，如地名、所在的省份或城市等

Python呼叫百度OCR實現圖片文字識別的示例程式碼

百度AI提供了一天50000次的免費文字識別額度，可以愉快的免費使用！下面直接上方法：

python呼叫百度人像動漫化

一、程式碼 import base64 import requests class AnimeDemo: def __init__(self,AK,SK): self.AK=AK self.SK=SK

requests專案實戰--抓取百度熱搜

一、概述目標url https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=123

python 呼叫百度介面做人臉識別

操作步驟差不多，記得要在百度AIPI中的控制檯中建立對應的工單建立工單成功後會生成兩個key 這個兩個key是要生成tokn 用

Selenium3+python3自動化（二十四）--獲取百度輸入聯想詞

前言百度輸入後，輸入框下方的聯想詞如何定位到，這個其實難度不大，用前面所講的元素定位完全可以定位到的。

python獲取百度熱榜連結的例項方法

相關推薦