python3.X 爬蟲針對拉鉤，直聘，大街等招聘網站的簡歷爬蟲遇到的ip代理的總結四（ pycharm執行，程式碼篇）

阿新 • • 發佈：2018-12-18

這裡面主要講解的是兩個大方向的程式碼：

一個是selenium+chrome中的ip代理：

from selenium import webdriver chromeOptions = webdriver.ChromeOptions()

# 設定代理 chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152") browser = webdriver.Chrome(chrome_options = chromeOptions)

一個是requests中的ip代理：

import requests proxies = { "https" : "https://111.155.124.78:8123" # 代理ip

} http_url = "http://www.xicidaili.com/nn/1" res = requests.get(url = http_url, proxies = proxies)

個人想法：

這裡面我想說一下我個人對代理的使用方式是利用第三方提供的api介面，進行每次下載100個IP代理，然後放在本地的檔案中，每次使用之前對其進行隨機的選取，然後對這個ip代理的池子進行定期的維護，我這邊採用的方式是一個小時進行覆蓋更新這個本地檔案（with open(" text ","a",encoding="utf-8") as f: f.write(......)） ,這裡面不建議直接進行介面的對接，容易出現：介面過載的現象，當你爬蟲爬取的量比較大的時候。

這個裡面還有一個我認為比較的坑就是當你得請求requests中url是https 還是http 的型別時候，你所用的代理其實是不能全部寫（這裡注意proxies裡面的引數，不是http 跟https全部都寫，看你的網站是https 就寫http的ip代理，反之就用https的IP代理，不要全都寫上去）

import requests proxies = { "https" : "https://111.155.124.78:8123" # 代理ip } http_url = "http://www.xicidaili.com/nn/1" res = requests.get(url = http_url, proxies = proxies)

最後再講一下selenium中的ip代理的載入方式就是

chromeOptions.add_argument("--proxy-server=http://202.20.16.82:10152") 這裡面能夠變動就是後面的IP地址，訪問的url是http你就去找http代理，是https你就去找https代理，但是前面的chromeOptions.add_argument("--proxy-server=http://......."）是不變的

綜上只是把這些看法講出來如有問題歡迎聯絡本人微信隨時交流

python3.X 爬蟲針對拉鉤，直聘，大街等招聘網站的簡歷爬蟲遇到的ip代理的總結四（ pycharm執行，程式碼篇）

python3.X 爬蟲針對拉鉤，直聘，大街等招聘網站的簡歷爬蟲遇到的ip代理的總結四（ pycharm執行，程式碼篇）

智聯,拉鉤,boss直聘,三款網際網路招聘應用競品分析

python3.X爬蟲針對拉鉤，直聘，大街等招聘網站的簡歷爬蟲抓取心得總結一（ide pycharm執行）

使用scrapy+IP代理+多執行緒爬蟲對拉鉤網在杭州網際網路職位資訊的抓取

動態ip代理軟體：只要網際網路在，爬蟲就存在

爬蟲之抓取 Boss直聘資料到 Excel 中

JAVA基礎針對自己薄弱環節總結01（循環之前的知識）

我們是如何上網，淺析（局域網+廣域網篇）

java基礎面試題：try{}裏有一個return語句，那麽緊跟在這個try後的finally {}裏的code會不會被執行，什麽時候被執行，在return前還是後?

IPO估值要破千億、凈利潤卻不超5%，總在抽“風”的小米風口史（上：起風篇）

IPO估值要破千億、凈利潤卻不超5%，總在抽“風”的小米風口史（下：造風篇）

小白學習之路，基礎四（函數的進階）

列表，元組，以及字符串等字符結構以及楊輝三角的四種寫法

Pod控制器應用進階四（Pod更新，擴縮容）

彙編實驗四（不全，剩下的明天補齊，先提交儲存）

爬蟲ip代理池新建（使用芝麻ip代理）

實驗四（建圖，無向圖+鄰接矩陣（BFS，DFS（遞迴+非遞迴）），有向圖+鄰接表（BFS，DFS（遞迴+非遞迴）），拓撲排序）

windos上安裝jenkins部署springboot的jar包（未執行，只是在打包並上傳linux成功了）

requests爬蟲使用的IP代理未生效（解決方法）

Tomcat執行時報錯，啟動服務失敗（Eclispe執行Tomcat顯示publish）

python3.X 爬蟲針對拉鉤，直聘，大街等招聘網站的簡歷爬蟲遇到的ip代理的總結四（ pycharm執行，程式碼篇）

相關推薦