Puppeteer爬蟲實戰(三)（轉載）

阿新 • • 發佈：2020-07-21

本篇文章針對大家熟知的技術站點作為目標進行技術實踐。

確定需求

訪問目標網站並按照篩選條件（關鍵詞、日期、作者）進行檢索並獲取返回資料中的目標資料。進行技術拆分如下：

開啟目標網站
找到輸入框元素輸入關鍵詞，找到日期元素設定日期，找到搜尋按鈕觸發搜尋動作
解析搜尋返回的html元素構造目標資料
將目標資料儲存

編寫程式碼

'use strict';
const puppeteer = require('puppeteer');
const csv = require('fast-csv');
const fs = require('fs');

(async () => {
  const startUrl = 'https://www.infoq.cn/';
  const keyWord = 'CQRS';
  const browser = await puppeteer.launch({
    slowMo: 100, // 放慢速度
    headless: false, // 是否有頭
    defaultViewport: {// 介面設定
      width: 1820,
      height: 1080,
    },
    ignoreHTTPSErrors: false, // 忽略 https 報錯
    args: ['--start-maximized', '--no-sandbox', '--disable-setuid-sandbox'],
  });

  const page = await browser.newPage();
  await page.goto(startUrl).catch(error => console.log(error));
  await page.waitFor(1 * 1000);
  await page.click('.search,.iconfont');
  await page.type('.search-input', keyWord, { delay: 100 });
  const newPagePromise = new Promise(x => browser.once('targetcreated', target => x(target.page())));
  await page.click('.search,.iconfont');
  const targetPage = await newPagePromise;
  const dataCount = await targetPage.$eval('.search-body-main-tips span', el => el && el.innerHTML).catch(error => console.error(error));
  if (dataCount && dataCount > 0) {
    const dataEle = await targetPage.$$('.search-item');
    console.log(dataEle.length);
    const stream = fs.createWriteStream('infoq.csv');
    const csvStream = csv.format({ headers: true });
    csvStream.pipe(stream).on('end', process.exit);
    for (let index = 0; index < dataEle.length; index++) {
      const element = dataEle[index];
      const title = await element.$eval('a', el => el && el.innerHTML).catch(error => console.error(error))
      const desc = await element.$eval('.desc', el => el && el.innerHTML).catch(error => console.error(error))
      csvStream.write({
        標題: title || '',
        摘要: desc || '',
      });
    }
    csvStream.end(() => { console.log('寫入完畢'); });
  }
  await targetPage.screenshot({ path: 'infoq.png' });
  await browser.close();
})();

具體的如下

視訊

總結

上面的例子還是比較簡單的，站點本身是資訊站(其實有搜尋介面根本不需要解析html

Puppeteer爬蟲實戰(三)（轉載）

本篇文章針對大家熟知的技術站點作為目標進行技術實踐。確定需求訪問目標網站並按照篩選條件（關鍵詞、日期、作者）進行檢索並獲取返回資料中的目標資料。進行技術拆分如下：

Puppeteer爬蟲實戰(三)

Python爬蟲實戰入門一：工具準備（轉載）

一、基礎知識使用Python編寫爬蟲，當然至少得了解Python基本的語法，瞭解：基本資料結構

Python爬蟲實戰入門六：提高爬蟲效率—併發爬取智聯招聘（轉載）

之前文章中所介紹的爬蟲都是對單個URL進行解析和爬取，url數量少不費時，但是如果我們需要爬取的網頁url有成千上萬或者更多，那怎麼辦？使用for迴圈對所有的url進行遍歷訪問？嗯，想法很好，但是如果url過多，爬取

資料鏈路層的三個基本問題（轉載）

封裝成幀# 封裝成幀（framing）就是在一段資料的前後分別新增首部和尾部，然後就構成了一個幀。確定幀的界限。

Python3爬蟲lxml解析庫安裝（轉載）

lxml的安裝 Windows 在Windows環境下，可以先嚐試利用pip安裝，開啟命令列窗戶輸入pip3 install lxml,如果沒有報錯，則安裝成功。

Java從入門到實戰之（15）面向物件之介面（三）

Java面向物件-介面介面定義：一種特殊的“抽象類”，沒有普通方法，由全域性常量和公共的抽象方法所組成；

三次握手，四次揮手（轉載）

“三次握手，四次揮手”你真的懂嗎？原文連結：https://zhuanlan.zhihu.com/p/53374516

Linux 修改Mysql密碼的三種方式（轉載）

註明：本文為轉載，原文地址：https://www.cnblogs.com/chuckjam/archive/2018/08/10/9456255.html

技術從業者的未來（三）（轉載）

原文地址：https://www.cnblogs.com/lex-wu/p/14610110.html 　前言　　回想了一下自己做這個分享系列的初衷是什麼。

塊/檔案/物件三種儲存的優缺點（轉載）

從應用角度看塊/檔案/物件三種儲存：http://www.talkwithtrend.com/Article/178247 物件儲存從理論到實踐：https://baijiahao.baidu.com/s?id=1608194600020248113&wfr=spider&for=pc

Flutter開發實戰初級（2）頁面佈局詳解

初級基礎系列 Flutter開發實戰初級（1）ListView詳解 Flutter開發實戰初級（2）佈局詳解

iOS逆向學習之三（Cycript）

什麼是Cycript？ Cycript是Objective-C++、ES6（JavaScript）、Java等語法的混合物. 可以點選官網來檢視，可以點選Cycript文件來檢視Cycript的使用方式。

抽象類為什麼可以有建構函式？- Constructor of an abstract class in C#（轉載）

問 Why is it possible to write constructor for an abstract class in C#?As far as I know we can‘t instantiate an abstract class.. so what is it for?You can‘t instantiate the class,right?