puppeteer爬蟲扒取資料後存入資料庫

阿新 • • 發佈：2018-11-17

puppeteer爬蟲扒取資料後存入資料庫

由於最近的工作內容接觸到了爬蟲與測試

所以這裡就記錄了一個小小的例子

爬蟲puppeteer + Koa2 + Mysql

是從之前koa2專案上增強了爬蟲的功能

爬蟲是以網易公開課的例子為例

之前koa部落格地址：https://blog.csdn.net/frank_come/article/details/80805032

koa專案地址：https://github.com/WeForStudy/Lottery-node

紅圈部分是要扒取的資料

首先我們來看一下專案目錄

我們是在之前koa專案的基礎上添加了爬蟲的功能

新添的檔案

reptile.js

我們來看一下

const ReptileService = require('./services/reptile')
const app = require('./index')
const puppeteer = require('puppeteer');
(async() => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  const url = "https://open.163.com/"
  await page.goto(url);
  const courses = await page.evaluate(() => {
    const coursesList = Array.from(
      document.querySelectorAll('.j-hotlist .item')
    )
    const getText = (e, selector) => {
      return e.querySelector(selector) && e.querySelector(selector).innerText
    }
    const data = coursesList.map(e => {
      const obj = {
        num: getText(e, '.icon'),
        text: getText(e, 'span'),
      }
      return obj
    })
    return data
  })
  // 拿到資料以後插入資料庫
  await courses.map(async item => {
    const cV = JSON.stringify(item)
    const res = await ReptileService.add({
      url,
      contentValue: cV,
      type: 1000, // 代表是內容
    }, true)
    if (res) {
      console.log(`呼叫ReptileService新增物件成功,物件值為:${cV}`)
    } else {
      console.log(`呼叫ReptileService新增物件失敗,原因為:${res}`)
    }
  })
  await page.close()
  await browser.close()
  app()
})();

首先我們開啟網頁以後，開啟谷歌開發者工具（F12或者滑鼠右鍵選擇），分析一下資料所在的div結構，以本demo為例

我們可以清晰地看到想要的資料是在<div>.j-hotlist裡的<a>標籤.item裡的<i>和<span>

我們來看一下程式碼

在開啟網頁後，我們用puppeteer內建的evaluate方法進入瀏覽器環境，然後獲得到對應的HTMLElement節點

這是我們拿到的資料。

[ { num: '01', text: '你真的瞭解消化不良嗎？\t\t\t\t' },
  { num: '02', text: '孩子愛流眼淚?或是青光眼!\t\t\t\t' },
  { num: '03', text: '艾滋病已變可控的慢性病？\t\t\t\t' },
  { num: '04', text: '查出泌尿結石 醫生了賜8個字' },
  { num: '05', text: '如何判斷是否感染肺結核？\t\t\t\t' },
  { num: '06', text: '跑步竟然能治療泌尿結石？' },
  { num: '07', text: '慢性胃炎當心變胃癌！\t\t\t\t' },
  { num: '08', text: '尿不成直線是前列腺有問題？' },
  { num: '09', text: '幽門螺桿菌該如何檢測？\t\t\t\t' },
  { num: '10', text: '大活人會被尿給憋死嗎？' } ]

接下來就是對資料庫的操作了

我們呼叫Services層

 // 拿到資料以後插入資料庫
  await courses.map(async item => {
    const cV = JSON.stringify(item)
    // 調

const courses = await page.evaluate(() => {
    // evaluate方法是在瀏覽器環境下執行的一個匿名函式
    // 可以獲取瀏覽器環境下等價的Bom操作
    // Document、 Window etc.
    // 注意的是，內部是一個隔離的環境，可以通過第二個引數把引數傳過來evaluate(func, params)
    // 分析對應的資料結構
    const coursesList = Array.from(
      document.querySelectorAll('.j-hotlist .item')
    )
    // 獲取相應元素內部子元素的innerText
    const getText = (e, selector) => {
      return e.querySelector(selector) && e.querySelector(selector).innerText
    }
    // 組合資料
    const data = coursesList.map(e => {
      const obj = {
        num: getText(e, '.icon'),
        text: getText(e, 'span'),
      }
      return obj
    })
    // 返回
    return data
  })

用service的新增

const res = await ReptileService.add({
      url,
      contentValue: cV,
      type: 1000, // 代表是內容
    }, true)
    if (res) {
      console.log(`呼叫ReptileService新增物件成功,物件值為:${cV}`)
    } else {
      console.log(`呼叫ReptileService新增物件失敗,原因為:${res}`)
    }
  })

其中url代表來源，contentValue代表我們扒取到的內容，type代表是文字還是圖片，

當然這個設計很簡單，也只是為了讓爬蟲的功能和資料庫貫穿起來，我們就不糾結這個資料庫的設計了

接下來我們來看一下services層的內容

const controller = require('../controller/reptile')
const pojo = require('../helper/pojo')
const model = require('./model')
const { success, failed, filterUnderLine }  = pojo
const m  = model([
  'list',
], 'reptile')
/**
 * @description 重寫add，為了給爬蟲新添一些邏輯
 * @param {*} ctx   如果是node環境呼叫就是params
 * @param {*} isNode 如果是node環境呼叫（非api）
 */
const add = async (ctx, isNode = false) => {
  let res;
  try {
    let val;
    if (isNode) {
      val = ctx
    } else {
      val = ctx.request.body
    }
    // 呼叫controller的add方法
    await controller.add(val).then(result => {
      if (isNode) {
        // node調取返回影響的行數
        res = result.affectedRows
        return
      }
      if(result.length === 0 || result === null || result === undefined)  
        res = failed('操作失敗')
      else 
        res = success(filterUnderLine(result[0]))
    })
  } catch(err) {
    res = failed(err)
  }
  if (isNode) {
    // node調取返回bool
    return res >= 1
  } else {
    ctx.body = res
  }
}
module.exports = {
  ...m,
  add,
}

其中add方法分為兩種環境呼叫，node呼叫和正常api呼叫

接下來是controller

// 在lib下封裝好的mysql資料庫連線池
const pool = require('../lib/mysql')
// STATUS是定義的列舉物件
const { STATUS } = require('../enum')
// 封裝好的資料庫連線池物件
const { query } = pool
// 新添管理員
const add = (val) => {
  const { url, contentValue, type } = val
  const values = Object.values(val)
  const _sql = 'insert into reptile(url,content_value,type,create_time,status) values(?,?,?,now(),?);'
  return query( _sql, [ url, contentValue, type, STATUS.NORMAL])
}
const list = () => {
  const _sql = 'select * from reptile where status =? ;'
  return query( _sql, [STATUS.NORMAL])
}

module.exports = {
  add,
  list,
}

list為正常的api,

到這裡，我們就完成了對資料庫的操作了

yarn run craw

在進行爬蟲的同時打開了koa的資料服務

爬蟲專案地址：https://github.com/WeForStudy/puppeteer-reptile：

puppeteer爬蟲扒取資料後存入資料庫

puppeteer爬蟲扒取資料後存入資料庫由於最近的工作內容接觸到了爬蟲與測試所以這裡就記錄了一個小小的例子爬蟲puppeteer + Koa2 + Mysql 是從之前koa2專案上增強了爬蟲的功能爬蟲是以網易公開課的例子為例之前

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

Spark Stream整合flum和kafka，資料儲存在HBASE上，分析後存入資料庫

開發環境：Hadoop+HBASE+Phoenix+flum+kafka+spark+MySQL 預設配置好了Hadoop的開發環境，並且已經安裝好HBASE等元件。下面通過一個簡單的案例進行整合：這是整個工作的流程圖：第一步：獲取資料來源　　由於外部埋點獲取資源較為繁瑣

Python爬蟲爬取資料存入MongoDB

from bs4 import BeautifulSoup import requests import time import pymongo client = pymongo.MongoClient('Localhost', 27017) ceshi = client[

python爬蟲十一：scrapy框架爬取天氣，存入資料庫

小白學習：轉：https://zhuanlan.zhihu.com/p/268854121.cmd下scrapy startproject 專案名2.我一般都是在pycharm中編寫程式碼，所以我會在idea中引入專案，這裡不知道如何在pycharm中下載scrapy模組的童

網路爬蟲爬取資料本地資料庫儲存遠端api分析模型

序言 20161119 寫一個星期多一點，在眾多的爬蟲框架中選擇了Webmagic，WebMagic簡單靈活的爬蟲框架。簡單易用，在這之前用的是WebCollector JAVA爬蟲框架，它的模組劃分弄了一天也沒

python：爬蟲爬取資料的處理之Json字串的處理（2）

#Json字串的處理 Json字串轉化為Python資料型別 import json JsonStr ='{"name":"sunck","age":"18","hobby":["money","power","English"],"parames":{"a":1,"b":2}}' Js

python ：通過爬蟲爬取資料（1）

(1)通過url爬取網頁資料 import urllib.request #指定url url ="https://www.baidu.com" #向伺服器發起請求，返回響應的資料，通過infor接收 infor = urllib.request.urlopen(url)

SSM(二)：Netty接收資料並存入資料庫出現數據接收不完全的情況

1.NettyServerStart public class NettyServerStart { @Autowired public NettyServerStart(final NettyServer nettyServer) { System.out

numpy 資料型別存入資料庫中

import numpy as np import pymysql prediction = np.array([]) mysql_server='localhost' name='root' password='your password' mysql_db='you

大三筆記（ajax傳遞json物件給controller,controller封裝為java物件後存入資料庫）

首先來看一個註解 @RequestBody 　　1、@requestBody註解常用來處理content-type不是預設的application/x-www-form-urlcoded編碼的內容，比如說：application/json或者是application/x

Python爬蟲捉取資料(代理網站)

#!/usr/bin/evn python # -*- coding:utf-8 -*- import urllib2 import urllib import re from HTMLParser import HTMLParser # 代理資訊實體 cl

爬蟲爬取資料時各種中文亂碼問題

學爬蟲有一段時間了，期間總是覺得內容編碼會傻傻分不清楚，尤其是直接網頁拿資料的時候，遇見中文有時候特別麻煩，看大神介紹的東西太多，只記下了處理方式，僅供參考，不對地方歡迎大家指正~~ 一般請求返回內容編碼方式步驟如下： 1、檢視資料來源網頁的編碼形式--爬取資料所在網頁原始碼就有寫： 2

java獲取excel中資料並存入資料庫表中

1--獲取excel檔案檔案所在路徑由於公司的平臺框架封裝比較嚴重，獲取路徑方法可能略有不同，不必太放心上。 //獲取平臺附件配置檔案附件存放路徑 String realPath = F

Django小專案--待辦清單（四）（從表單中獲取資料並存入資料庫）

首先進入主頁（要記得先進入虛擬環境並且通過python mange.py runserver啟動本地伺服器），我們知道主頁匹配的網址是localhost:8000/todo/home，在瀏覽器上輸入並回車。在頁面的右上角有一個新增待辦事項的按鈕，輸入內容並點選新

java爬蟲爬取網站資訊儲存資料庫

需求分析 1：爬取虎嗅首頁獲取首頁文章地址：https://www.huxiu.com/ 2：爬取虎嗅分頁地址，獲取分頁上的文章地址。 3：爬取文章詳情頁,獲取文章資訊（標題、正文、作者、釋出時間、評論數、點贊數、收藏數）。 4：將爬到的文章資訊入庫。實現思路 1：爬首頁

java爬蟲抓取資料，儲存為excel檔案

下載jsoup jar包和poi jar包 City.java package dataToExcel; public class City { private String name; private String url;

進行大資料爬取資料，存入Mongodb

爬蟲剛入門，對趕集網進行一次所有商品大資料的爬取使用了多執行緒，存到資料庫裡，目前不知道要爬多久有一個要注意的地方，比如我們要進行兩次爬蟲，一次是把每個專案的連結爬下來，一次是把每個專案裡的詳情資訊爬下來，最好是先把每個專案的連結存下來，並用資料庫儲存，然後再從資料庫取

scrapy整合hbase爬取資料並存入hbase

在網上看了大篇的帖子都是關於scrapy與mongodb、mysql、redis等整合的文章，唯獨沒有看到scrapy與hbase整合的文章。今天動手實驗了一下，整理成本篇博文，分享給大家。 scrapy爬取資料的例子網上很多，本人在此就不再贅訴了。此處只

從資料庫隨機取資料四種資料庫隨機獲取10條資料的方法

四種資料庫隨機獲取10條資料的方法 SQL Server: 程式碼如下: SELECT TOP 10 * FROM T_USER ORDER BY NEWID() ORACLE: 程式碼如下: SELECT * FROM (SELECT * FROM T_USER ORDE

puppeteer爬蟲扒取資料後存入資料庫

puppeteer爬蟲扒取資料後存入資料庫

相關推薦