1. 程式人生 > >【學習】06 爬蟲使用代理地址爬取搜狗微信文章

【學習】06 爬蟲使用代理地址爬取搜狗微信文章

實現功能

  1. 根據登陸後的cookie製作header,請求搜尋微信文章
  2. url需要使用urlencode拼接
  3. 使用代理避免IP被封
  4. 使用pyquery解析得到需要的欄位資訊
  5. 爬取文章詳情頁並存儲到MongoDB

步驟

  1. 製作cookie,拼接URL
  2. 獲取每一頁的html程式碼
  3. 從每一頁的html程式碼解析得到具體文章的url
  4. 獲取具體文章的url,解析得到需要的資訊

收穫

  1. 使用pyquery
  2. 使用代理IP
  3. 異常處理