爬蟲小計(charles抓取wss資料--yy資料爬取)
阿新 • • 發佈:2018-12-15
背景
- 爬取一個直播平臺的資訊與一個普通網站的資料
- 直播平臺的資訊有熱門主播的線上人數,時常,與熱門直播的禮物情況(粉絲的人物畫像)
難點
- 打賞禮物的人物畫像
- https
- wss(資料的實時性),需要模擬匿名使用者的訪問,某直播網站的wss資料又是二進位制資料
- 頭大的js程式碼,無限多,無限長
分析
- 一般普通資料用java jsoup來解決
- wss的資料需要先模擬匿名登入,拿到binary data。然後再來分析網站的js程式碼,進行解析。
找工具
- chrome 開發者工具,f12 ws選擇只能看到frames在走動與我們兩個互不認識的binary。
- wireshark,傷心本來報很大希望但是無法通過websocket方式來搜尋出來,而且即時分析出來,我估計也不知道如何擷取,這個後面再做研究如何使用,看到有人說直接搜websocket是可以看到的。但是通過websocket filter我真的找不到自己想要的資料。除非通過ip.addr ip.src 等等
- charles,無意中發現的。真如其名,charles。雖然開始也用不好,但是最後還是搞定了,下面具體說說如何使用的吧。
charles工具
- 先啟用
// Charles Proxy License
// 適用於Charles任意版本的註冊碼,誰還會想要使用破解版呢。
// Charles 4.2目前是最新版,可用。
Registered Name: https://zhile.io
License Key: 48891cf209c6d32bf4
- 安裝 ssl證書支援
help->SSL proxying->install charles root certificate 下面這篇文章說的非常好 https://www.cnblogs.com/ceshijiagoushi/p/6812493.html
- 設定代理,同樣是上面的文章,不過我建議使用 *:443
檢視結果
- 在瀏覽器上訪問你要訪問的網站
- 普通的https網頁已經在後側可以看到內容了
- 同樣wss的抓取也出來,但是具體的binary data。還是需要自己分析的哦
目前使資料可以抓取到,接下來就是需要對二進位制資料進行分析解析,獲取有價值資料。
原創文章,版權所有,禁止抄襲,違者必究!!!轉載請註明出處!!!技術需要請聯絡[email protected]