1. 程式人生 > >網路爬蟲:爬取動態網頁

網路爬蟲:爬取動態網頁

import requests
from bs4 import BeautifulSoup
 
res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml')
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text,'html.parser')
#取評論數
commentCount = soup.select_one('#commentCount1')
print(commentCount.text)

為空,這是因為儲存在js裡面了

import
json comments = requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyfzhac1650783') comments.encoding = 'utf-8' print(comments) jd = json.loads(comments.text.strip('var data=')) #移除改var data=將其變為json資料 print(jd['result']['count']['total'])

移除 var data= 因為在獲取時字串字首是包含var data=的 其不符合json資料格式 因此轉化時需將其從請求內容中移除