爬蟲用fiddler抓取網易新聞客戶端手機app內容
阿新 • • 發佈:2019-01-31
一,工具
電腦安卓模擬器:夜神模擬器
抓包工具:fiddler
程式碼:pycharm
二、分析
1.首先要設定好fiddler和夜神模擬器的關聯,這個網上很多教程這裡不做介紹
2.開啟網易app,觀察fiddler抓包列表,儘量先清空下然後重新整理網易這樣再次觀察更清晰
3.找到內容的包,當然這個需要多觀察,看到一個json的api介面
4.分析json資料能看到內容的標題,來源,簡介和新聞內容的跳轉連結的id
5.新聞內容連結還是通過抓包分析就是由具體格式加上id組成
三、程式碼
主要通過簡單的請求和解析出想要的內容,requests請求,json轉出dict,然後就是解析出想要的內容 #效果展示
import requests
import json
url="http://c.m.163.com/recommend/getSubDocPic?tid=T1348647909107&from=toutiao&offset=0&size=10&fn=2&LastStdTime=0&spestr=&prog=&passport=&devId=SmIj6wElOAwD%2F7VEtB2DHg%3D%3D&lat=d7C%2FuQEMvzpJvLOCtGz7eA%3D%3D&lon=jKhXi261wzrUpMyoUJMkXA%3D %3D&version=32.1&net=wifi&ts=1536372024&sign=GDXr1D%2FJSfyJMd2%2BUFw5n0BFw9x8%2FjCcuvItDDfX2gZ48ErR02zJ6%2FKXOnxX046I&encryption=1&canal=news_lf_cpa_2&mac=4CNyYK7%2FA82%2Bwmt5R%2FX%2FIDuov9agSmjNwKbeX%2FiMet8%3D&open=&openpath="
response=requests.get(url)
source_dit=json.loads(response.text)
# print(type(source))
content=source_dit["T1348647909107"]
for i in content:
title=i["title"]
source=i["source"]
digest=i["digest"]
link="https://c.m.163.com/news/a/{}.html?spss=newsapp".format(i["id"])
print(source,"\n",link ,"\n", title, "\n",digest,"\n" )
print("="*80)