1. 程式人生 > 程式設計 >c# Selenium爬取資料時防止webdriver封爬蟲的方法

c# Selenium爬取資料時防止webdriver封爬蟲的方法

背景

大家在使用Selenium + Chromedriver爬取網站資訊的時候,以為這樣就能做到不被網站的反爬蟲機制發現。但是實際上很多引數和實際瀏覽器還是不一樣的,只要網站進行判斷處理,就能輕輕鬆鬆識別你是否使用了Selenium + Chromedriver模擬瀏覽器。其中

window.navigator.webdriver

就是很重要的一個。

問題窺探

正常瀏覽器開啟是這樣的

c# Selenium爬取資料時防止webdriver封爬蟲的方法

模擬器開啟是這樣的

ChromeOptions options = null;
      IWebDriver driver = null;
      try
      {
        options = new ChromeOptions();
        options.AddArguments("--ignore-certificate-errors");
        options.AddArguments("--ignore-ssl-errors");

        // options.AddExcludedArgument("enable-automation");
        // options.AddAdditionalCapability("useAutomationExtension",false);

        var listCookie = CookieHelp.GetCookie();
        if (listCookie != null)
        {
          // options.AddArgument("headless");
        }

        // string ss = @"{ ""source"": ""Object.defineProperty(navigator,'webdriver',{ get: () => undefined})""}";
        //  options.AddUserProfilePreference("Page.addScriptToEvaluateOnNewDocument",new ssss() { source = " Object.defineProperty(navigator,{  get: () => undefined }) " });

        ChromeDriverService service = ChromeDriverService.CreateDefaultService(System.Environment.CurrentDirectory);
        service.HideCommandPromptWindow = true;
        driver = new ChromeDriver(service,options,TimeSpan.FromSeconds(120));

        ////session.Page.AddScriptToEvaluateOnNewDocument(new OpenQA.Selenium.DevTools.Page.AddScriptToEvaluateOnNewDocumentCommandSettings()
        ////{
        ////  Source = @"Object.defineProperty(navigator,{ get: () => undefined })"
        ////}
        //// );

c# Selenium爬取資料時防止webdriver封爬蟲的方法

所以,如果網站通過js程式碼獲取這個引數,返回值為undefined說明是正常的瀏覽器,返回true說明用的是Selenium模擬瀏覽器。

解決辦法

那麼對於這種情況,在爬蟲開發的過程中如何防止這個引數告訴網站你在模擬瀏覽器呢?執行對應的js,改掉它的值。

 IJavaScriptExecutor js = (IJavaScriptExecutor)driver;
 string returnjs = (string)js.ExecuteScript("Object.defineProperties(navigator,{webdriver:{get:()=>undefined}});");

執行效果

c# Selenium爬取資料時防止webdriver封爬蟲的方法

完美,達到預期效果。

以上就是c# Selenium爬取資料時防止webdriver封爬蟲的方法的詳細內容,更多關於c# 防止webdriver封爬蟲的資料請關注我們其它相關文章!