python3.X 爬蟲針對拉鉤,直聘,大街等招聘網站的簡歷爬蟲遇到的ip代理的總結四( pycharm執行,程式碼篇)
這裡面主要講解的是兩個大方向的程式碼:
一個是selenium+chrome中的ip代理:
from selenium import webdriver chromeOptions = webdriver.ChromeOptions()
# 設定代理 chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152") browser = webdriver.Chrome(chrome_options = chromeOptions)
一個是requests中的ip代理:
import requests proxies = { "https" : "https://111.155.124.78:8123" # 代理ip
個人想法:
這裡面我想說一下我個人對代理的使用方式是利用第三方提供的api介面,進行每次下載100個IP代理,然後放在本地的檔案中,每次使用之前對其進行隨機的選取,然後對這個ip代理的池子進行定期的維護,我這邊採用的方式是一個小時進行覆蓋更新這個本地檔案(with open(" text ","a",encoding="utf-8") as f: f.write(......)) ,這裡面不建議直接進行介面的對接,容易出現:介面過載的現象,當你爬蟲爬取的量比較大的時候。
這個裡面還有一個我認為比較的坑就是當你得請求requests中url是https 還是http 的型別時候,你所用的代理其實是不能全部寫(這裡注意proxies裡面的引數,不是http 跟https全部都寫,看你的網站是https 就寫http的ip代理,反之就用https的IP代理,不要全都寫上去)
import requests proxies = { "https" : "https://111.155.124.78:8123" # 代理ip } http_url = "http://www.xicidaili.com/nn/1" res = requests.get(url = http_url, proxies = proxies)
最後再講一下selenium中的ip代理的載入方式就是
chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152") 這裡面能夠變動就是後面的IP地址,訪問的url是http你就去找http代理,是https你就去找https代理,但是前面的chromeOptions.add_argument("--proxy-server=http://.......")是不變的
綜上只是把這些看法講出來 如有問題歡迎聯絡本人微信隨時交流