1. 程式人生 > >網路爬蟲day03

網路爬蟲day03

尋找登陸的post地址

  • 在from表單中尋找action對應的url地址
    – post的資料是input標籤中name的值作為鍵,真正的使用者名稱作為值的字典,post的url地址就是action對應的url地址
  • 抓包,尋找登陸的url地址
    –勾選perserve log按鈕,防止頁面跳轉找不到url
    –尋找post資料,確定引數
    引數會變,引數則在當前響應中,通過js生成
    不會變,直接用,比如密碼不是動態加密的時候

定位想要的js

  • 選擇會觸發js時間按鈕,點選event listener,找到js的位置
  • 通過Chrome中的search all file來搜尋url中的關鍵字
  • 新增斷電的方式來檢視js的操作,通過Python來進行同樣的操作

requests小技巧

  • r = requests.get(url)
    requests.dict_from_cookiejar(r.cookies) 將cookie轉化成字典
    requests.cookiejar_from_dict() 將字典轉化為cookie
  • 請求SSL證書驗證
    r = requests.get(url,verfiy=True)
  • 設定超時
    r = requests.get(url,timeout=10)
  • 配合狀態碼判斷是否請求成功
    assert r.status_code==200