node爬取新型冠狀病毒的疫情實時動態
阿新 • • 發佈:2020-02-07
寫在前面:
新型冠狀病毒有多麼可怕,我想大家都已經知道了。湖北爆發了新型冠狀病毒,湖南前幾天爆發了禽流感,四川發生地震,中國加油!昨天晚上我突發奇想地打算把疫情實時動態展示在自建站上,於是說幹就幹(先附上昨晚用puppeteer截的圖片)。
安裝node_modules:
所需的node_modules:①puppeteer;②cheerio;③fs;④cron。
需要注意的是安裝puppeteer的時候很容易安裝失敗,這裡有倆個解決方法,都是用淘寶源(馬雲爸爸不是白叫的😄)。
一、先將npm換成淘寶源再安裝:
npm config set registry http://registry.npm.taobao.org/ npm install -g cheerio npm i -g puppeteer npm i -g fs npm i -g cron
二、用cnpm進行安裝:
npm install cnpm -g --registry=https://registry.npm.taobao.org/ cnpm install -g cheerio cnpm i -g puppeteer cnpm i -g fs cnpm i -g cron
具體操作:
用puppeteer爬取:
puppeteer本質上是一個chrome瀏覽器,網頁很難分清這是人類使用者還是爬蟲,我們可以用它來載入動態網頁。
先來一個簡單的例子,用puppeteer截圖:
const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch({args: ['--no-sandbox','--disable-setuid-sandbox']}); //啟動瀏覽器例項 /* puppeteer.launch()的可選引數如下: headless: 是否開啟瀏覽器,預設為true ignoreHTTPSErrors: 是否忽略https錯誤,預設為true executablePath: 配置要呼叫瀏覽器的可執行路徑,預設是同Puppeteer一起安裝的Chromeium slowMo:指定的毫秒延緩Puppeteer的操作 args:設定瀏覽器的相關引數,比如是否啟動沙箱模式“--no-sandbox”,是否更換代理“--proxy-server”, */ const page = await browser.newPage(); //新建頁面 await page.goto('https://ncov.dxy.cn/'); //訪問目標網頁:丁香醫生 await page.screenshot({ //進行截圖 path: 'p1.png',type: 'png',// quality: 100,只對jpg有效 // 指定區域截圖,clip和fullPage兩者只能設定一個 // fullPage: true,clip: { x: 0,y: 0,width: 1000,height: 1000 } }); browser.close(); //關閉瀏覽器 })();
用puppeteer獲取網頁原始碼:
const puppeteer = require('puppeteer'); (async () => { const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https://ncov.dxy.cn/'); //page.frames() 獲取當前頁面所有的 iframe,然後根據 iframe 的名字精確獲取某個想要的 iframe const frame = await page.mainFrame(); const bodyHandle = await frame.$('html'); //獲取所有的html //frame.evaluate()在瀏覽器中執行函式,相當於在控制檯中執行函式,返回一個Promise const html = await frame.evaluate(body=>body.innerHTML,bodyHandle); await bodyHandle.dispose(); browser.close(); console.log(html); })();
用cheerio解析html:
// 使用cheerio模組裝載我們得到的頁面原始碼,返回的是一個類似於jquery中的$物件 // 使用這個$物件就像操作jquery物件一般去操作我們獲取得到的頁面的原始碼 var $ = cheerio.load(html); var $menu_box = $(".statistics___1cFUQ"); console.log($menu_box.html());
用fs寫入到檔案中:
/* fs.wirteFile有三個引數 * 1,第一個引數是要寫入的檔案路徑 * 2,第二個引數是要寫入得內容 * 3,第三個引數是可選引數,表示要寫入的檔案編碼格式,一般就不寫,預設就行 * 4,第四個引數是個回撥函式 只有一個引數error,來判斷是否寫入成功 */ fs.writeFile("./coronavirus.php",$menu_box.html(),error=>{ if(error) return console.log("寫入檔案失敗,原因是:"+error.message); console.log('寫入成功'); });
引入到網站中:
我是直接把它放在頭部,區域性程式碼如下:
<div id="header-bg"> <style type="text/css"> .title___2d1_B img { width: 18px; height: 18px; cursor:pointer; } #novel_coronavirus { text-align: center; position:relative; top:50px; background-color:rgba(255,255,0.7); } #novel_coronavirus li { margin: 10px; padding:2px; border:1px slide #000; } #novel_coronavirus ul li { list-style:none; display: inline-block; } .count___3GCdh p{ font-size:12px; } .count___3GCdh span{ font-size:20px; } </style> <div id="novel_coronavirus" > <strong><p style="font-size:23px">新型冠狀病毒疫情實時動態</p></strong> <?php require("./test/coronavirus.php");?> </div> </div>
伺服器上執行的完整程式碼:
CronJob的定時引數是 秒 分鐘 小時 天 月份 星期。這裡我設定成了每分鐘爬取一次。(我是用mstsc遠端連線後執行nodecoronavirus.js的,這樣關閉遠端桌面連線後,伺服器依然會每分鐘爬取一次丁香醫生上的新型冠狀病毒的全國疫情實時動態。
const cheerio = require('cheerio'); const puppeteer = require('puppeteer'); const fs = require('fs'); var cronJob = require('cron').CronJob; new cronJob('0 */1 * * * *',function(){ update(); },null,true); //每分鐘執行一次 //爬取全國新型肺炎疫情實時動態並寫入到指定的.php檔案 function update() { (async () => { const browser = await puppeteer.launch({args: ['--no-sandbox','--disable-setuid-sandbox']}); const page = await browser.newPage(); await page.goto('https://ncov.dxy.cn/'); const frame = await page.mainFrame(); const bodyHandle = await frame.$('html'); const html = await frame.evaluate(body=>body.innerHTML,bodyHandle); await bodyHandle.dispose(); browser.close(); var $ = cheerio.load(html); var $menu_box = $(".statistics___1cFUQ"); fs.writeFile("coronavirus.php",error=>{ if(error) { console.log("寫入檔案失敗,原因是:"+error.message); } else { console.log('更新成功'); } }); })(); }
檢視我的網站
總結
以上所述是小編給大家介紹的node爬取新型冠狀病毒的疫情實時動態,希望對大家有所幫助!