1. 程式人生 > 其它 >什麼是「無頭瀏覽器」 (Headless browser),它有什麼應用場景?

什麼是「無頭瀏覽器」 (Headless browser),它有什麼應用場景?

什麼是無頭瀏覽器(headless browser)?

無頭瀏覽器是指可以在圖形介面情況下執行的瀏覽器。我可以通過程式設計來控制無頭瀏覽器自動執行各種任務,比如做測試,給網頁截圖等。

為什麼叫“無頭”瀏覽器?

“無頭”這個詞來源於最初的“無頭計算機(Headless computer)”。維基百科關於的“無頭計算機”詞條:

無頭系統(headless system)是指已配置為無須顯示器(即“頭”)、鍵盤和滑鼠操作的計算機系統或裝置。無頭系統通常通過網路連線控制,但也有部分無頭系統的裝置需要通過RS-232序列連線進行裝置的管理。伺服器通常採用無頭模式以降低運作成本。

為什麼要檢測無頭瀏覽器?

除了之前提到的兩種測試、截圖,無頭瀏覽器可以被用來自動執行惡意任務。最常見的形式是做網路爬蟲,或偽裝訪問量,或探測網站漏洞。

一個非常流行的無頭瀏覽器是PhantomJS,因為它是基於 Qt 框架,所以跟我們常見的瀏覽器相比有很多不同的特徵,因此有很多方法判斷出它。

但是,從chrome 59開始,谷歌釋出了一款無頭谷歌瀏覽器。它跟PhantomJS不同,它是基於正統的谷歌瀏覽器開發出來的,不是基於其它的框架,這讓程式很難區分出它是正常瀏覽器還是無頭瀏覽器。

下面,我們將介紹幾種判斷程式是執行在普通瀏覽器還是無頭瀏覽器裡的方法。

檢測無頭瀏覽器

注意:這些方法只是在四種裝置 (2 Linux, 2 Mac) 裡測試過,也就是說, 肯定還有其他很多方法檢測無頭瀏覽器。

User agent

先介紹使用做最常見的一種判斷瀏覽器種類的方法,檢查User agent。在linux計算機裡Chrome version 59無頭瀏覽器的User agent值是:

“Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) HeadlessChrome/59.0.3071.115 Safari/537.36”

於是,我們可以這樣檢測是否是無頭Chrome瀏覽器:

if (/HeadlessChrome/.test(window.navigator.userAgent)) {
    console.log(
"Chrome headless detected"); }

User agent 也可以從 HTTP headers 裡獲取。然而,這兩種情況都很容易偽造。

外掛 Plugins

navigator.plugins 會返回一個數組,裡面是當前瀏覽器裡的外掛資訊。通常,普通Chrome瀏覽器有一些預設外掛,比如 Chrome PDF viewer 或 Google Native Client。相反,在無頭模式裡,沒有任何外掛,返回的是個空陣列。

if(navigator.plugins.length == 0) {
    console.log("It may be Chrome headless");
}

語言

在谷歌瀏覽器裡,有兩個JavaScript屬性可以獲取當前瀏覽器的語言設定: navigator.language 和 navigator.languages。頭一個是指瀏覽器介面的語言,後一個返回的是個陣列,裡面儲存的是瀏覽器使用者的所有次選語言。然而,在無頭模式裡,navigator.languages 返回的是個空字串。

if(navigator.languages == "") {
    console.log("Chrome headless detected");
}

WebGL

WebGL 提供了一組能在HTML canvas 裡執行3D渲染的API。通過這些API,我們可以查詢出圖形驅動的 vendor 和 renderer 。

在linux上的普通谷歌瀏覽器裡,我們獲得的 renderer 和 vendor 值為: “Google SwiftShader” 和 “Google Inc.”。

而在無頭模式裡,我們獲得的一個是 “Mesa OffScreen”——它是沒有使用任何 window 系統的渲染技術的名稱,和 “Brian Paul” ——開源 Mesa 圖形庫的最初的程式。

var canvas = document.createElement('canvas');
var gl = canvas.getContext('webgl');

var debugInfo = gl.getExtension('WEBGL_debug_renderer_info');
var vendor = gl.getParameter(debugInfo.UNMASKED_VENDOR_WEBGL);
var renderer = gl.getParameter(debugInfo.UNMASKED_RENDERER_WEBGL);

if(vendor == "Brian Paul" && renderer == "Mesa OffScreen") {
    console.log("Chrome headless detected");
}

並不是所有版本的無頭瀏覽器都有同樣的這兩個值。然而目前在無頭瀏覽器裡是“Mesa Offscreen” 和 “Brian Paul” 這兩個值。

瀏覽器特徵

Modernizr 可以探測出當前瀏覽器對HTML和CSS各種特性的支援程度。我發現,普通Chrome和無頭Chrome裡唯一的區別是,無頭模式下沒有 hairline 特徵,它是用來檢測是否支援 hidpi/retina hairlines的

if(!Modernizr["hairline"]) {
    console.log("It may be Chrome headless");
}

載入失敗的圖片

最後,我發現的最後一個方法,也是看起來最有效的方法,切入點是檢查瀏覽器裡不能正常載入的圖片的高和寬。

在正常的Chrome裡,未成功載入的圖片的大小跟瀏覽器的zoom有關,但肯定不是零。而在無頭Chrome瀏覽器裡,這種圖片的寬和高都是0。

var body = document.getElementsByTagName("body")[0];
var image = document.createElement("img");
image.src = "http://iloveponeydotcom32188.jg";
image.setAttribute("id", "fakeimage");
body.appendChild(image);
image.onerror = function(){
    if(image.width == 0 && image.height == 0) {
        console.log("Chrome headless detected");
    }
}








參考連結:https://www.zhihu.com/question/314668782/answer/644758829
宣告 歡迎轉載,但請保留文章原始出處:) 部落格園:https://www.cnblogs.com/chenxiaomeng/ 如出現轉載未宣告 將追究法律責任~謝謝合作