爬取動態分頁數據案例
阿新 • • 發佈:2019-03-30
標題 頁碼 [] use 當前 sap list style 內容
需求:
爬取東方財富證券http://kuaixun.eastmoney.com/ssgs.html的財經新聞數據
1.爬取頁面中的標題和對應的內容:【標題】內容
2.進行分頁操作,爬取當前頁面所有頁碼對應的標題和內容數據
3.不可以使用selenium
4.進行任意形式的持久化存儲
代碼:
通過對網站的分析發現翻頁時,有ajax數據包分析數據包的url發現,翻頁改變url中的參數,共20頁
#url— http://kuaixun.eastmoney.com/ssgs.html import requests import json import re headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36‘ } # 通過對網站的分析發現翻頁時,有ajax數據包分析數據包的url發現,翻頁改變url中的參數,共20頁 url = "http://newsapi.eastmoney.com/kuaixun/v1/getlist_103_ajaxResult_50_{}_.html" for i in range(1,21): url2 = url.format(i) page_text= requests.get(url=url2, headers=headers).text page_str = re.findall(‘\{.*\}‘,page_text)[0] page_dic = json.loads(page_str) page_list = page_dic["LivesList"] content_list = [] for dic in page_list: content = dic["digest"] content_list.append(content)# 分頁存儲 with open(f"./第{i}頁新聞","w",encoding=‘utf-8‘) as fp: fp.write(‘\n‘.join(content_list)) print(f"第{i}頁新聞存儲成功")
爬取動態分頁數據案例