1. 程式人生 > >Headless Chrome入門,原來還有這樣的工具。

Headless Chrome入門,原來還有這樣的工具。

前言


本文的原文連線是: https://blog.csdn.net/freewebsys/article/details/81665552
未經博主允許不得轉載。
博主地址是:http://blog.csdn.net/freewebsys

1,關於Headless Chrome


Puppeteer 是一個控制 headless Chrome 的 Node.js API 。它是一個 Node.js 庫,通過 DevTools 協議提供了一個高階的 API 來控制 headless Chrome。它還可以配置為使用完整的(非 headless)Chrome。

在瀏覽器中手動完成的大多數事情都可以通過使用 Puppeteer 完成,下面是一些入門的例子:

生成螢幕截圖和 PDF 頁面
檢索 SPA 並生成預渲染內容(即“SSR”)
從網站上爬取內容

自動提交表單,UI測試,鍵盤輸入等

建立一個最新的自動測試環境。使用最新的 JavaScript 和瀏覽器功能,在最新版本的 Chrome 中直接執行測試

捕獲網站的時間線跟蹤,以幫助診斷效能問題。

專案地址:
https://github.com/GoogleChrome/puppeteer

2,使用


寫的很詳細:
https://developers.google.com/web/updates/2017/04/headless-chrome
有翻譯:
https://www.jianshu.com/p/aec4b1216011

執行alias:

alias chrome="/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome"
chrome --headless --disable-gpu --dump-dom https://www.sogou.com/

和直接檢視頁面當中的html還是不一樣的。是動態載入的呢。
這個在爬蟲進行資料抓取的是還是非常的好用的。
同時可以使用。puppeteer 進行程式設計,讓自動化抓取程式。
這個可是真正的瀏覽器的agent呢。

還能進行pdf列印呢:

chrome --headless --disable-gpu --print-to-pdf https://www.sogou.com/

在這裡插入圖片描述

3,總結


技術的更新還是非常快的。
在進行資料抓取的時候。可以使用chrome 的headless 模式,用程式抓取。
是渲染後的 html js 程式碼呢。還可以通過 puppeteer 進行程式設計。

本文的原文連線是:
https://blog.csdn.net/freewebsys/article/details/81665552

博主地址是:http://blog.csdn.net/freewebsys