抓取網頁資料並解析Android
阿新 • • 發佈:2019-02-13
這天遇到這樣一個需求:這種頁面資料可以抓取嗎?
隨後提供了賬號、密碼和網站地址:
帳號:kytj1
密碼:******************
登陸地址:http://student.tiaoji.kaoyan.com/tjadm
主要思路:
1、使用Fiddler4分析http請求互動方式,包括資料傳送方式(POST或GET),攜帶引數等,獲得返回的資料資訊
2、用Android程式模擬HTTP請求
3、用Java解析HTML程式碼,提取出對應的姓名、報考學校、報考專業、分數、聯絡電話、釋出時間等欄位
4、把txt檔案匯入到Excel裡,待進一步處理。
用Fiddle檢視資料包
1、開啟Fiddler
2、開啟網站,填入使用者名稱和密碼,點選登入
登陸地址:http://student.tiaoji.kaoyan.com/tjadm
3、觀察Filldder抓到的包
可以看到HOST、URL、POST方式以及明文密碼
4、觀察網頁資料
登入成功後,網頁資料顯示為
對應的Filldder抓包資料為
可以看到請求的HOST以及URL,方式為GET,返回的資料也可以在body體中獲取到。
5、HTML程式碼
返回的HTML頁面程式碼為(選取了部分)
-
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
- <htmlxmlns="http://www.w3.org/1999/xhtml">
- <head>
- <metahttp-equiv="Content-Type"content="text/html; charset=utf-8"/>
- <metaname="viewport"content="width=device-width, initial-scale=1.0, maximum-scale=3.0,user-scalable=no ">
-
<title>考研調劑中心_考研調劑意向釋出系統_考研調劑_考研網(kaoyan.com)
- <metaname="description"content=""/>
- <linkrel="stylesheet"type="text/css"href="http://img.kaoyan.com/tiaoji/css/tiaoji-h5.css"/>
- <linkhref="http://img.kaoyan.com/global/style/header.css"rel="stylesheet">
- <linkhref="http://img.kaoyan.com/yz/style/yz.index.css"rel="stylesheet">
- <scripttype='text/javascript'src='http://cbjs.baidu.com/js/m.js'></script>
- </head>
- <body>
- <divclass="kyHd">
- <divclass="kyTop">
- <scriptsrc="http://img.kaoyan.com/www/header-tiaoji.js"type="text/javascript"></script>
- <scriptsrc="http://img.kaoyan.com/www/headera.js"type="text/javascript"></script>
- </div>
- </div>
- <divstyle="height:10px;"></div>
- <divclass="w1000ad tc">
- <scripttype="text/javascript">/*考研網-大通欄-通用*/var cpro_id = "u1773335";</script>
- <scriptsrc="http://cpro.baidustatic.com/cpro/ui/c.js"type="text/javascript"></script>
- </div>
- <ulclass="nav"id="tjNav">
- <li><ahref="http://tiaoji.kaoyan.com/"title="考研調劑首頁">調劑首頁</a></li>
- <li><ahref="http://www.kaoyan.com/kaoyan/27/474572/"title="考研調劑流程"target="_blank">調劑流程</a></li>
- <li><ahref="http://www.kaoyan.com/tiaoji/xinxi/"title="考研調劑資訊">調劑資訊</a></li>
- <li><ahref="http://tiaoji.kaoyan.com/xinwen/"title="考研調劑新聞">調劑新聞</a></li>
- <li><ahref="http://tiaoji.kaoyan.com/jingyan/"title="考研調劑經驗">調劑經驗</a></li>
- <li><ahref="http://tiaoji.bbs.kaoyan.com/"title="考研調劑論壇"target="_blank">調劑論壇</a></li>
- </ul>
- <divclass="courseArea">
- <ulclass="tjPicAd mt10 clear">
- <li><scripttype="text/javascript">BAIDU_CLB_fillSlot("850729");</script></li>
- <li><scripttype="text/javascript">BAIDU_CLB_fillSlot("850747");</script></li>
- <li><scripttype="text/javascript">BAIDU_CLB_fillSlot("850763");</script