常見的反爬手段和解決思路

阿新 • • 發佈：2019-01-02

1.通過headers中的User-Agent欄位來反爬

隨機生成User-Agent：

import random

def get_ua():
    first_num = random.randint(55, 62)
    third_num = random.randint(0, 3200)
    fourth_num = random.randint(0, 140)
    os_type = [
        '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',
        '(Macintosh; Intel Mac OS X 10_12_6)'
    ]
    chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num)

    ua = ' '.join(['Mozilla/5.0', random.choice(os_type), 'AppleWebKit/537.36',
                   '(KHTML, like Gecko)', chrome_version, 'Safari/537.36']
                  )
    return ua

2. 通過referer欄位或者是其他欄位來反爬

通過referer欄位來反爬，我們只需要新增上即可

3.通過cookie來反爬

如果目標網站不需要登入每次請求帶上前一次返回的cookie，比如requests模組的session
如果目標網站需要登入準備多個賬號，通過一個程式獲取賬號對應的cookie，組成cookie池，其他程式使用這些cookie

4.通過js來反爬

使用selenium

5.通過驗證碼來反爬

通過打碼平臺或者是機器學習的方法識別驗證碼，其中打碼平臺廉價易用

6.通過ip地址來反爬

同一個ip大量請求了對方伺服器，有更大的可能性會被識別為爬蟲，對應的通過購買高質量的ip的方式能夠結局問題

7.通過自定義字型來反爬

解決思路：切換到手機版

8.通過css來反爬

解決思路：計算css的偏移

爬蟲提高 - 1 - 常見的反爬手段和解決思路

1 明確反反爬的主要思路反反爬的主要思路就是：儘可能的去模擬瀏覽器，瀏覽器在如何操作，程式碼中就如何去實現。瀏覽器先請求了地址url1，保留了cookie在本地，之後請求地址url2，帶上了之前的cookie，程式碼中也可以這樣去實現。很多時候，爬蟲中攜帶的headers欄位，coo

十六、常見的反爬手段和解決思路

1、明確反反爬的主要思路反反爬的主要思路就是：儘可能的去模擬瀏覽器，瀏覽器在如何操作，程式碼中就如何去實現。例如：瀏覽器先請求了地址url1，保留了cookie在本地，之後請求地址url2，帶上了之前的cookie，程式碼中也可以這樣去實現。 2、通過heade

常見的反爬手段和解決思路

1.通過headers中的User-Agent欄位來反爬隨機生成User-Agent： import random def get_ua(): first_num = random.randint(55, 62) third_num = random.

ECS雲主機SSH連接提示“Connection reset by peer”的解決辦法和解決思路

阿裏雲運維思想工單支持三周前剛從上家公司換到新的公司，這家公司與上家公司相比對阿裏雲的雲計算環境更加的依賴，使用的ECS實例和其他服務如SLB、RDS、OSS等更多了一個數量級。這篇文章的背景就是為了解決阿裏雲ECS雲主機SSH連接的一個問題，從故障發現到故障排除到最後反思的一個詳細

網站常見的入侵手段和防禦方法

quest 殺傷力類型手動同方 ets 控制服務器但是網站入侵技術大概有以下幾種: 1、上傳入侵上傳入侵便是通過上傳文件來獲得權限，針對有上傳文件權限的網站實施，好比論壇可以上傳附件、資訊站可以投稿上傳圖片，這些都可能為上傳木馬提供便利，上傳木馬以後，很多信息都

那些年繞過的反爬手段

不用標註百萬正常頁面 .com lan 急了請求參數筆者第一份工作就是以java工程師的名義寫爬蟲，不得不說第一份工作很重要啊，現在除了爬蟲不會幹別的，到現在已經幹了近5年了，期間經歷了不少與反爬策略的鬥爭。最近又耗時兩周成功搞定了某網站的反爬策略後，心裏有點莫

懶人動手，用python做一個基礎翻譯重新命名器（破解百度翻譯反爬手段）

想法：在做開發的時候，經常需要命名各種變數，方法/函式，類，包，庫等。走一遍流程就是：想好要起的名字，比如“非常帥氣”；然後上翻譯網站，比如百度翻譯，有道翻譯；將中文輸入並讓其翻譯成英文，此時就得出一個“very handsome”的單詞；根據駝峰命名法，我們最後需要得

系統技術非業餘研究 » Erlang 網路密集型伺服器的瓶頸和解決思路

最近我們的Erlang IO密集型的伺服器程式要做細緻的效能提升，從每秒40萬包處理提升到60萬目標，需要對程序和IO排程器的原理很熟悉，並且對行為進行微調，花了不少時間參閱了相關的文件和程式碼。其中最有價值的二篇文章是： 1. Characterizing the Scalability of

爬蟲之簡單反爬蟲措施和解決方法

0x01 常見的反爬蟲　　這幾天在爬一個網站，網站做了很多反爬蟲工作，爬起來有些艱難，花了一些時間才繞過反爬蟲。在這裡把我寫爬蟲以來遇到的各種反爬蟲策略和應對的方法總結一下。　　從功能上來講，爬蟲一般分為資料採集，處理，儲存三個部分。這裡我們只討論資料採集部分。　

HTTP主要安全漏洞和解決思路

本部落格整理自圖解HTTP和眾多網路文章，對HTTP完全漏洞進行梳理，並介紹了java解決方案。簡單的HTTP協議本身並不存在安全性問題，因此協議本身幾乎不會成為攻擊的物件，但是HTTP應用的服務端和客戶端以

我做運維期間一些碰到的業務方面的問題和解決思路

1.pc端無發正常訪問頁面（頁面沒有提供狀態碼）我的解決思路：根據架構，先去web伺服器上檢查相關服務和埠是否正常，修改host檔案，將域名繫結至本地，然後curl，看是否正常，如果正常就說明web伺服器沒有問題，然後ping域名，檢視返回的地址是哪裡，如果是代理ip，要去檢查ip所在的

常見HBase故障分析和解決方法

1. java.net.SocketException: Too many open files 問題原因：問題現象：所有節點region server程序掛掉，hbase不可訪問，檢視日誌有如下資訊 tail hbase-hbase-regionserver-ip-10

前端頁面佈局常見的相容性問題和解決方法

前端頁面相容問題主要表現在我們所做的頁面在不同瀏覽器顯示會有所不同，目前主要的相容性問題比較多的是IE6和IE7,另外針對html5和css3新標籤，比如css3動畫，媒體查詢，畫布，視訊等暫時不做討論，下面就針對常見的相容性問題做下總結。一、不同瀏覽器margin和p

【Hadoop】Hadoop2.7.3執行job下來幾個bug和解決思路

基本條件：name伺服器和node伺服器都正常。WEBUI中顯示都是OK，都是存活。執行現象之一：總是job執行中，毫無反應。 16/09/01 09:32:29 INFO mapreduce.Job: Running job: job_1472644

redis常見的報錯和解決方案，收納中，希望給大家幫助。

今天執行Redis時發生錯誤，錯誤資訊如下： MISCONF Redis is configured to save RDB snapshots, but is currently not able t

boss直聘的反爬取和隨機代理

from bs4 import BeautifulSoup import requests import ip_proxy from urllib import parse headers = { 'User-Agent': 'Mozilla/5.

常見反除錯手段及其規避方法（一）-IsDebuggerPresent

軟體中會使用各種手段防止Craker除錯程式，為此我們必須瞭解常見的反除錯技術的原理及規避方法。偵錯程式：Ol

python 反爬總結（1）- 限制IP UA 的解決方法，修改headers和新增IP代理池

在學習python爬蟲的過程中，遇到各種反爬機制，個人總結了一下：對同樣的ip或User-Agent進行限制，對頻繁訪問的ip進行限制，設定登陸限制，設定驗證碼，設定Ajax載入頁面。目前小白我也就瞭解這麼多，其中驗證碼的反反爬還在學習當中，學無止境啊 &

JVM內存監視手段和內存溢出解決方案

max 什麽 detail pat ogg 最大堆還需 .net 設置引言本文僅關註一些常見的虛擬機內存監視手段，以及JVM運行時數據區各個部分內存溢出的發生和對應的解決方案，總體來說屬於概括性總結，涉及相對不是很深入，目的是讓自己和其它初學者有一個框架性、概念性的了

考勤問題思路和解決

信息 har job 工作日 end con object post rda 近期在做一個考勤系統，考勤主要關註的是缺勤、遲到和早退。眼下的打卡控制器能夠記錄username和打卡時間，用戶可能一天打卡多次，也可能一天僅僅打了一次卡，這些情況都須要考慮。打卡信息都存

常見的反爬手段和解決思路

相關推薦