Python爬蟲神器pyppeteer，對 js 加密降維打擊

阿新 • • 發佈：2019-06-10

爬蟲神器pyppeteer，對 js 加密降維打擊

pyppeteer 是對無頭瀏覽器 puppeteer的 Python 封裝。無頭瀏覽器廣泛用於自動化測試，同時也是一種很好地爬蟲思路。

使用 puppeteer（等其他無頭瀏覽器）的最大優勢當然是對 js 加密實行降維打擊，完全無視 js 加密手段，對於一些需要登入的應用，也可以模擬點選然後儲存 cookie。而很多時候前端的加密是爬蟲最難攻克的一部分。當然puppeteer也有劣勢，最大的劣勢就是相比面向介面爬蟲效率很低，就算是無頭的chromium，那也會佔用相當一部分記憶體。另外額外維護一個瀏覽器的啟動、關閉也是一種負擔。

這篇文章我們來寫一個簡單的 demo，爬取拼多多搜尋頁面的資料，最終的效果如下：

我們把所有 api 請求的原始資料儲存下來：

示例 json 檔案如下：

開發環境

python3.6+

最好是 python3.7，因為asyncio在 py3.7中加入了很好用的asyncio.run()方法。

安裝pyppeteer

如果安裝有問題請去看官方文件。

python3 -m pip install pyppeteer

安裝 chromium

你懂的，天朝網路環境很複雜，如果要用pyppeteer自己繫結的chromium，半天都下載不下來，所以我們要手動安裝，然後在程式裡面指定executablePath。

下載地址：www.chromium.org/getting-inv…

hello world

pyppeteer 的 hello world 程式是前往exmaple.com截個圖：

import asyncio
from pyppeteer import launch

async def main():
    browser = await launch({
        # Windows 和 Linux 的目錄不一樣，情換成自己對應的executable檔案地址
        'executablePath': '你下載的Chromium.app/Contents/MacOS/Chromium',
    })
    page = await browser.newPage()
    await page.goto('http://example.com')
    await page.screenshot({'path': 'example.png'})
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())
大家在學python的時候肯定會遇到很多難題，以及對於新技術的追求，這裡推薦一下我們的Python學習扣qun：784，758，214，這裡是python學習者聚集地！

pyppeteer 重要介面介紹

pyppeteer.launch

launch 瀏覽器，可以傳入一個字典來配置幾個options，比如：

browser = await pyppeteer.launch({
    'headless': False, # 關閉無頭模式
    'devtools': True, # 開啟 chromium 的 devtools
    'executablePath': '你下載的Chromium.app/Contents/MacOS/Chromiu',
    'args': [ 
        '--disable-extensions',
        '--hide-scrollbars',
        '--disable-bundled-ppapi-flash',
        '--mute-audio',
        '--no-sandbox',
        '--disable-setuid-sandbox',
        '--disable-gpu',
    ],
    'dumpio': True,  
})

其中所有可選的args引數在這裡：peter.sh/experiments…

dumpio的作用：把無頭瀏覽器程序的 stderr 核 stdout pip 到主程式，也就是設定為 True 的話，chromium console 的輸出就會在主程式中被打印出來。

注入 js 指令碼

可以通過page.evaluate形式，例如：

await page.evaluate("""
    () =>{
        Object.defineProperties(navigator,{
            webdriver:{
            get: () => false
            }
        })
    }
""")

我們會看到這一步非常關鍵，因為puppeteer出於政策考慮（這個詞用的不是很好，就是那個意思）會設定window.navigator.webdriver為true，告訴網站我是一個 webdriver 驅動的瀏覽器。有些網站比較聰明（反爬措施做得比較好），就會通過這個來判斷對方是不是爬蟲程式。

這等價於在 devtools 裡面輸入那一段 js 程式碼。

還可以載入一個 js 檔案：

await page.addScriptTag(path=path_to_your_js_file)

通過注入 js 指令碼能完成很多很多有用的操作，比如自動下拉頁面等。

截獲 request 和 response

await page.setRequestInterception(True)
page.on('request', intercept_request)
page.on('response', intercept_response)

intercept_request和intercept_response相當於是註冊的兩個回撥函式，在瀏覽器發出請求和獲取到請求之前指向這兩個函式。

比如可以這樣禁止獲取圖片、多媒體資源和發起 websocket 請求：

async def intercept_request(req):
    """請求過濾"""
    if req.resourceType in ['image', 'media', 'eventsource', 'websocket']:
        await req.abort()
    else:
        await req.continue_()

然後每次獲取到請求之後將內容打印出來（這裡只打印了fetch和xhr型別response 的內容）：

async def intercept_response(res):
    resourceType = res.request.resourceType
    if resourceType in ['xhr', 'fetch']:
        resp = await res.text()
        print(resp)

一共有哪些resourceType，pyppeteer文件裡面有：

拼多多搜尋爬蟲

頁面自動下拉

拼多多的搜尋介面是一個無限下拉的頁面，我們希望能夠實現無限下拉頁面，並且能夠控制程式提前退出，不然一直下拉也不好，我們可能並不需要那麼多資料。

js 指令碼

async () => {
    await new Promise((resolve, reject) => {

        // 允許下滑的最大高度，防止那種可以無限下拉的頁面無法結束
        const maxScrollHeight = null;

        // 控制下拉次數
        const maxScrollTimes = null;
        let currentScrollTimes = 0;

        // 記錄上一次scrollHeight，便於判斷此次下拉操作有沒有成功，從而提前結束下拉
        let scrollHeight = 0;

        // maxTries : 有時候無法下拉可能是網速的原因
        let maxTries = 5;
        let tried = 0;

        const timer = setInterval(() => {

            // 下拉失敗，提前退出
            // BUG : 如果網速慢的話，這一步會成立~
            // 所以設定一個 maxTried 變數
            if (document.body.scrollHeight === scrollHeight) {
                tried += 1;
                if (tried >= maxTries) {
                    console.log("reached the end, now finished!");
                    clearInterval(timer);
                    resolve();
                }
            }

            scrollHeight = document.body.scrollHeight;
            window.scrollTo(0, scrollHeight);
            window.scrollBy(0, -10);

            // 判斷是否設定了maxScrollTimes
            if (maxScrollTimes) {
                if (currentScrollTimes >= maxScrollTimes) {
                    clearInterval(timer);
                    resolve();
                }
            }

            // 判斷是否設定了maxScrollHeight
            if (maxScrollHeight) {
                if (scrollHeight >= maxScrollHeight) {
                    if (currentScrollTimes >= maxScrollTimes) {
                        clearInterval(timer);
                        resolve();
                    }
                }
            }

            currentScrollTimes += 1;
            // 還原 tried
            tried = 0;
        }, 1000);

    });
};
大家在學python的時候肯定會遇到很多難題，以及對於新技術的追求，這裡推薦一下我們的Python學習扣qun：784758214，這裡是python學習者聚集地！

這裡面有幾個重要的引數：

interval : 下拉間隔時間，以毫秒為單位
maxScrollHeight : 執行頁面下拉最大高度
maxScrollTimes : 最多下拉多少次（推薦使用，可以更好控制爬取多少資料）
maxTries : 下拉不成功時最多重試幾次，比如有時候會因為網路原因導致沒能在 interval ms 內成功下拉

把這些替換成你需要的。同時你可以開啟 chrome 的開發者工具執行一下這段 js 指令碼。

完整程式碼

這段程式碼一共也就只有70多行，比較簡陋，情根據自己的實際需求更改。

import os
import time
import json
from urllib.parse import urlsplit
import asyncio
import pyppeteer
from scripts import scripts

BASE_DIR = os.path.dirname(__file__)

async def intercept_request(req):
    """請求過濾"""
    if req.resourceType in ['image', 'media', 'eventsource', 'websocket']:
        await req.abort()
    else:
        await req.continue_()

async def intercept_response(res):
    resourceType = res.request.resourceType
    if resourceType in ['xhr', 'fetch']:
        resp = await res.text()

        url = res.url
        tokens = urlsplit(url)

        folder = BASE_DIR + '/' + 'data/' + tokens.netloc + tokens.path + "/"
        if not os.path.exists(folder):
            os.makedirs(folder, exist_ok=True)
        filename = os.path.join(folder, str(int(time.time())) + '.json')
        with open(filename, 'w', encoding='utf-8') as f:
            f.write(resp)

async def main():
    browser = await pyppeteer.launch({
        # 'headless': False,
        # 'devtools': True
        'executablePath': '/Users/changjiang/apps/Chromium.app/Contents/MacOS/Chromium',
        'args': [
            '--disable-extensions',
            '--hide-scrollbars',
            '--disable-bundled-ppapi-flash',
            '--mute-audio',
            '--no-sandbox',
            '--disable-setuid-sandbox',
            '--disable-gpu',
        ],
        'dumpio': True,
    })
    page = await browser.newPage()

    await page.setRequestInterception(True)
    page.on('request', intercept_request)
    page.on('response', intercept_response)

    await page.setUserAgent('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                            '(KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299')
    await page.setViewport({'width': 1080, 'height': 960})
    await page.goto('http://yangkeduo.com')
    await page.evaluate("""
            () =>{
                   Object.defineProperties(navigator,{
                     webdriver:{
                       get: () => false
                     }
                   })
            }
        """)
    await page.evaluate("你的那一段頁面自動下拉 js 指令碼")
    await browser.close()

if __name__ == '__main__':
    asyncio.r

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Python爬蟲神器pyppeteer，對 js 加密降維打擊
      
                                        
                                                爬蟲神器pyppeteer，對 js 加密降維打擊
pyppeteer 是對無頭瀏覽器 puppeteer的 Python 封裝。 

  
 

    

    
    記一次Python3爬蟲利用pyppeteer得到網站js加密後的密文
      
							
							
							分析的是一個航空網站，其實是我再找python執行js程式碼的資料的時候，發現了一個博主分析了這個網站的加密過程，然後我去跟著操作的時候，發現網站的加密部分程式碼發生了變化，不過在我不小心把網頁關了之後，我實在找不到那篇文章了。。。。。所以我再說一下整個的分析過 

  
 

    

    
    java爬蟲，破解JS加密的Cookie
      
                
一 序：
因為爬取資料需要，代理跟驗證碼識別屬於不可避免的問題。本文總結了下因為爬取免費代理IP資料遇到的js加密cookie問題。
二 問題：
對於常見的靜態頁面來說，jsoup的解析是比較常見的。

但是這個網站如果直接用jsoup去抓取，會報錯。

org.jsoup 

  
 

    

    
    爬蟲必看，每日JS逆向之愛奇藝密碼加密，今天你練了嗎？
      > 友情提示：優先在公眾號更新，在部落格園更新較慢，有興趣的關注一下知識圖譜與大資料公眾號，本次目標是摳出愛奇藝passwd加密JS程式碼，如果你看到了這一篇，說明你對JS逆向感興趣，如果是初學者，那不妨再看看我之前的一些文章，可能對你的學習路有些幫助，跟著一起除錯，對JS加密方法理解會更深點。如果除錯 

  
 

    

    
    python 爬蟲1 開始，先拿新浪微博開始
      大括號   版本   install   esp   con   data-   定位   ble   Language   

剛剛開始學。
目的地是兩個。一個微博，一個貼吧
存入的話，臨時還沒想那麽多。先存到本地目錄吧
分詞和推薦後面在整合
mysql mongodb hadoop redius 後面在用 

  
 

    

    
    python/numpy/tensorflow中，對矩陣行列操作，下標是怎麽回事兒？
      flow   round   mean   數據   ria   lis   .html   錯誤   表示    
 
Python中的list/tuple，numpy中的ndarrray與tensorflow中的tensor。
 
用python中list/tuple理解，僅僅是從內存角度理解一個序列數據 

  
 

    

    
    學習Python爬蟲第一步，Bs4庫
      pri   rom   示例   上一個   標簽   string   使用   gpo   s參數   首先是安裝BS4庫
因為Python的pip真的很方便，所以一般不出意外，只需要一個pip就足以完成一個庫的安裝。
pip install beautifulsoup4
名字很長不要記錯名字呦。
想要利 

  
 

    

    
    常見的Python爬蟲面試題，叫面試官唱征服
      python   爬蟲   web開發   系統入門   快速詳細   是否了解線程的同步和異步？線程同步：多個線程同時訪問同一資源，等待資源訪問結束，浪費時間，效率低 線程異步：在訪問資源時在空閑等待時同時訪問其他資源，實現多線程機制是否了解網絡的同步和異步？同步：提交請求->等待服務器處理-> 

  
 

    

    
    python爬蟲神器PyQuery的使用方法
       
 
   
 前言 
 前端大大們的福音來了，PyQuery 來了，乍聽名字，你一定聯想到了 jQuery，如果你對 jQuery 熟悉，那麼 PyQuery 來解析文件就是不二之選！包括我在內！ 
 PyQuery 是&nb 

  
 

    

    
    從零開始的Python爬蟲速成指南，本文受眾：沒寫過爬蟲的萌新
       
 
  
   
  
  
 引言 
 用最短的時間寫一個最簡單的爬蟲，可以抓一些簡單的論壇、帖子、網頁。 
  
 入門 
 1.準備工作 
 
  安裝Python 
  安裝scrapy框架 
  一個IDE或者可以用自帶的 
 
 2.開始寫爬蟲 
  
   
  
 &n 

  
 

    

    
    RSA非對稱加密演算法(表單提交時，前端js加密，後端java解密)
       
 
  
  
 
 
  RSA非對稱加密演算法(表單提交時，前端js加密，後端java解密
  
   非對稱加密演算法
   需要的工具
   前端jsp頁面
   js程式碼
   加密解密的工具類
   產生公鑰的類
   處理登陸請求的類
   加密成功的密碼
  
 
  
 非對稱加密演算 

  
 

    

    
    分享一些關於Python爬蟲的原始碼，需要的朋友可以自行領取
       
 
 利用Python批量下載百度圖片 
 # !/usr/bin/env python
# -*- coding:utf-8 -*-

# 匯入URLLIB庫的編碼方法
from urllib.parse import&nb 

  
 

    

    
    [轉載] python的sorted函式，對字典按key排序和按value排序
       
  
  
 先來基本介紹一下sorted函式，sorted(iterable,key,reverse)，sorted一共有iterable,key,reverse這三個引數。 
 其中iterable表示可以迭代的物件，例如可以是 dict.items()、dict.keys()等，key是一個函式，用 

  
 

    

    
    python 爬蟲 cookies設定，獲取登陸後介面。
      
                前言

Cookie

Cookie 是指某些網站伺服器為了辨別使用者身份和進行Session跟蹤，而儲存在使用者瀏覽器上的文字檔案，Cookie可以保持登入資訊到使用者下次與伺服器的會話。

Cookie原理

HTTP是無狀態的面向連線的協議, 為了保持連線狀態, 引入了 

  
 

    

    
    Python 爬蟲速成教程，還有35個實戰專案送給你
       
 
 前兩天，有個小夥伴問了黑馬哥這樣一個問題：Python可以爬到視訊網站上vip才能看到的視訊嗎？聽到這個問題，你是什麼反應？我當時的內心：開玩笑，還有Python爬不到的東西嗎？ 
 今天黑馬哥就給大家總結了一些Python爬取各種東西的案例，讓你看看Python到底有多強大，而且黑馬哥還給大家準備 

  
 

    

    
    Python爬蟲學習路線，強烈建議收藏這十一條
       
 
  
 
  
   
         前言 （一）如何學習Python 學習Python大致可以分為以下幾個階段： 1.剛上手的時候肯定是先過一遍Python最基本的知識，比如說：變數、資料結構、語法等，基礎過的很快，基本上1~2周時間就能過完了，我當時是在這兒看的基礎：Pyt 

  
 

    

    
    python：zip函式，對列表中的元素進行函式操作
       
  
  
 python程式碼 
 a = [[123, 456, 789, 123],[124, 455, 788, 124]]
width = map(lambda x:x[1] - x[3], a)		# 求a中各個元素中，第2和第4的差值
list(width)
 
 總結 
  
  pyth 

  
 

    

    
    Python爬蟲入門教程，突破煎蛋網反爬措施，妹子圖批量抓取！
       
 
 
  
   
 今天寫一個爬蟲愛好者特別喜歡的網站煎蛋網 ，這個網站其實還是有點意思的，網站很多人寫了N多的教程了，各種方式的都有，當然網站本身在爬蟲愛好者的不斷進攻下，也在不斷的完善，反爬措施也很多，今天我用 selenium 在揍他一波。 
  
   
  
   

  
 

    

    
    Python爬蟲入門教程，多執行緒採集鬥圖啦表情包！
       
 
 
 寫在前面 
 今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。 
  
 https://github.com/wangde 

  
 

    

    
    教你用Python爬蟲股票評論，簡單分析股民使用者情緒
      
                

一、背景

股民是網路使用者的一大群體，他們的網路情緒在一定程度上反映了該股票的情況，也反映了股市市場的波動情況。作為一隻時間充裕的研究僧，我課餘時間準備寫個小程式碼get一下股民的評論資料，分析使用者情緒的走勢。程式碼還會修改，因為結果不準確，哈哈！

二、資料來源