1. 程式人生 > >python3.X 爬蟲針對拉鉤,直聘,大街等招聘網站的簡歷爬蟲遇到的ip代理的總結四( pycharm執行,程式碼篇)

python3.X 爬蟲針對拉鉤,直聘,大街等招聘網站的簡歷爬蟲遇到的ip代理的總結四( pycharm執行,程式碼篇)

這裡面主要講解的是兩個大方向的程式碼:

一個是selenium+chrome中的ip代理:

from selenium import webdriver chromeOptions = webdriver.ChromeOptions()

# 設定代理 chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152") browser = webdriver.Chrome(chrome_options = chromeOptions)  

一個是requests中的ip代理:

import requests proxies = {     "https" : "https://111.155.124.78:8123" # 代理ip

} http_url = "http://www.xicidaili.com/nn/1" res = requests.get(url = http_url, proxies = proxies)

個人想法:

        這裡面我想說一下我個人對代理的使用方式是利用第三方提供的api介面,進行每次下載100個IP代理,然後放在本地的檔案中,每次使用之前對其進行隨機的選取,然後對這個ip代理的池子進行定期的維護,我這邊採用的方式是一個小時進行覆蓋更新這個本地檔案(with open(" text ","a",encoding="utf-8") as f: f.write(......)) ,這裡面不建議直接進行介面的對接,容易出現:介面過載的現象,當你爬蟲爬取的量比較大的時候。

        這個裡面還有一個我認為比較的坑就是當你得請求requests中url是https 還是http 的型別時候,你所用的代理其實是不能全部寫(這裡注意proxies裡面的引數,不是http 跟https全部都寫,看你的網站是https 就寫http的ip代理,反之就用https的IP代理,不要全都寫上去)

import requests proxies = {     "https" : "https://111.155.124.78:8123" # 代理ip } http_url = "http://www.xicidaili.com/nn/1" res = requests.get(url = http_url, proxies = proxies)

         最後再講一下selenium中的ip代理的載入方式就是

chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152")   這裡面能夠變動就是後面的IP地址,訪問的url是http你就去找http代理,是https你就去找https代理,但是前面的chromeOptions.add_argument("--proxy-server=http://.......")是不變的

綜上只是把這些看法講出來 如有問題歡迎聯絡本人微信隨時交流