網路爬蟲:爬取動態網頁
阿新 • • 發佈:2018-11-08
import requests from bs4 import BeautifulSoup res = requests.get('http://news.sina.com.cn/c/nd/2017-06-12/doc-ifyfzhac1650783.shtml') res.encoding = 'utf-8' soup = BeautifulSoup(res.text,'html.parser') #取評論數 commentCount = soup.select_one('#commentCount1') print(commentCount.text)
為空,這是因為儲存在js裡面了
importjson comments = requests.get('http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-fyfzhac1650783') comments.encoding = 'utf-8' print(comments) jd = json.loads(comments.text.strip('var data=')) #移除改var data=將其變為json資料 print(jd['result']['count']['total'])
移除 var data= 因為在獲取時字串字首是包含var data=的 其不符合json資料格式 因此轉化時需將其從請求內容中移除