編寫windows服務定時爬取部落格園文章郵件提醒以及入庫

阿新 • • 發佈：2018-11-08

這段時間工作比較忙，每天也沒那麼多的時間逛部落格園看文章，於是就想寫一個工具每天早上9點爬取文章給自己發郵件

作為每天的技術早餐。

相對而言，爬取部落格園的文章還是比較簡單的，主要思路就是分析部落格園文章列表的分頁，請求方式，頁面渲染方式等，

寫篇隨筆簡單share一下。

這個小工具主要用到的由nlog、HtmlAgilityPack、ef、quartz.net 。

首先就是分析文章列表以及分頁，當對文章列表切換頁碼的時候，

url是這種形式： https://www.cnblogs.com/#p3

p1 p2 p3 ...p(n) 剛開始我也是以為列表分頁是靠這種形式走的，在url中傳頁碼引數，用.net 的httpclient請求了幾十頁，

發現返回內容都是一樣的，這是一個坑，接著分析，F12分析一下，切換頁碼的時候發現是一個post請求，

請求地址為：

https://www.cnblogs.com/mvc/AggSite/PostList.aspx

分析下請求引數，

CategoryId、CategoryType、ItemListActionName、PageIndex、ParentCategoryId、TotalPostCount

對每個引數的具體意義不做過多分析，pageindex就是頁碼，因此文章列表在分頁的時候，請求地址為

https://www.cnblogs.com/mvc/AggSite/PostList.aspx

傳遞引數如：{"CategoryType":"SiteHome","ParentCategoryId":0,"CategoryId":808,"PageIndex":4,"TotalPostCount":4000,"ItemListActionName":"PostList"}

按照此地址以及引數請求一下，確定能夠返回期望結果，讓人不舒服的地方又來了，返回結果非json 而是當前頁面的html 。

至此，分頁請求方式已經解決了，下一步就是處理請求結果，獲取請求頁的文章列表內容。

因為返回結果是html 我們首先看下文章列表頁：

在此列表內，我們能獲取到的資訊有標題、作者、釋出時間、摘要，一般爬蟲返回結果為json、html、xml等

部落格園返回結果為html，我們可以通過正則表示式去處理，Regex，也可以通過xpath去處理，因為返回結果就是一個html dom樹，

我們可以通過xpath語法去處理 http://www.w3school.com.cn/xpath/xpath_syntax.asp

同時，我們也可以F12 Elements選項下選擇對應文章標題右鍵copy xpath

比如某一標題的xpath為 //*[@id="post_list"]/div[1]/div[2]/h3/a

相應的c#中可以使用HtmlAgilityPack 這個工具來進行解析，程式碼如下：

                    HtmlDocument htmlDocument = new HtmlDocument();
                    htmlDocument.LoadHtml(html);
                    HtmlNodeCollection postItems = i == 1 ? htmlDocument.DocumentNode.SelectNodes("//*[@id='post_list']/*") : htmlDocument.DocumentNode.SelectNodes("./div");

                    foreach (HtmlNode item in postItems)
                    {
                        var titleNode = item.SelectSingleNode("./*/h3");
                        var footNode = item.SelectSingleNode("./*/div[@class='post_item_foot']");
                        if (Articles.Any(c => c.Title == titleNode.InnerText)) continue; Articles.Add(new Article { Title = titleNode.InnerText, ItemUrl = titleNode.FirstChild.Attributes["href"].Value, Sumary = item.SelectSingleNode("./*/p").InnerText, Author = footNode.SelectSingleNode("./a").InnerText, PubDate = footNode.SelectSingleNode("./text()[2]").InnerText.Replace("釋出於", "").Trim() }); }

其中的html就是當前列表的html內容，程式碼可自行寫。Article為自定義的實體類

到這一步，文章的簡單資訊獲取到了 url 標題作者釋出時間摘要

下一步就是獲取文章的內容

比如某一文章的url為，https://www.cnblogs.com/senlinmu/p/9805684.html

文章詳情仍然採用HtmlAgilityPack

                Articles.ForEach(v =>
                {
                    string html = client.GetStringAsync(v.ItemUrl).Result;
                    htmlDocument.LoadHtml(html);
                    HtmlNode htmlNode = htmlDocument.DocumentNode.SelectSingleNode("//*[@id='cnblogs_post_body']");
                    v.Content = htmlNode?.InnerHtml;
                });

html為文章詳情，此xpath為 //*[@id='cnblogs_post_body']

至此，文章的標題、時間、摘要、內容獲取完畢。

然後就可給自己發郵件提醒。

獲取內容大致完成，下一步就是部署成windows服務，

編寫windows服務定時爬取部落格園文章郵件提醒以及入庫

這段時間工作比較忙，每天也沒那麼多的時間逛部落格園看文章，於是就想寫一個工具每天早上9點爬取文章給自己發郵件作為每天的技術早餐。相對而言，爬取部落格園的文章還是比較簡單的，主要思路就是分析部落格園文章列表的分頁，請求方式，頁面渲染方式等，寫篇隨筆簡單share一下。這個小工具主要用到的由nl

編寫windows服務定時爬取博客園文章郵件提醒以及入庫

cli 發現 innertext 比較 sum asp author ota sel 這段時間工作比較忙，每天也沒那麽多的時間逛博客園看文章，於是就想寫一個工具每天早上9點爬取文章給自己發郵件作為每天的技術早餐。相對而言，爬取博客園的文章還是比較簡單的，主要思路就

使用Tornado和協程爬取部落格園文章

Python3.5後 Tornado官方建議使用async和await的方式實現非同步程式，嘗試了下使用Tornado和協程爬取部落格園的文章並使用peewee_async非同步寫入MySQL資料庫。一. 部落格園文章抓取測試：這裡我以我自己的一篇文章詳情作為測試url，https://www.cnb

部落格搬家系列（三）-爬取部落格園部落格

部落格搬家系列（三）-爬取部落格園部落格一.前情回顧部落格搬家系列（一）-簡介：https://blog.csdn.net/rico_zhou/article/details/83619152 部落格搬家系列（二）-爬取CSDN部落格：https://bl

Python爬蟲爬取部落格園作業

要求第一部分：請分析作業頁面，爬取已提交作業資訊，並生成已提交作業名單，儲存為英文逗號分隔的csv檔案。檔名為：hwlist.csv 。檔案內容範例如下形式：學號,姓名,作業標題,作業提交時間,作業URL 20194010101,張三,羊車門作業,2018-1

Scrapy爬取部落格園精華區內容

程式爬取目標獲取部落格園精華區文章的標題、標題連結、作者、作者部落格主頁連結、摘要、釋出時間、評論數、閱讀數和推薦數，並存儲到MongoDB中。程式環境已安裝scrapy 已安裝MongoDB 建立工程 scrapy startproject cnblogs 在命令提示符中執行

python3爬取部落格瀏覽量

爬取結果程式碼很簡單： # encoding=utf8 import requests import re import time from bs4 import BeautifulSoup firstUrl = 'http://blog.csdn.

簡單程式碼爬取部落格超連結的文字，並且去除字元“原”和空格

這裡給大家分享一個怎麼用Python爬取超連結的文字，並且能夠去除字元“原“和前後空格、空行等等。這個程式碼不多，而且非常簡單。我這裡用的是Python3，版本不和的可以調整一下，這個程式碼還是很好理解的。接下來我給大家分享爬取我的部落格超連結

Java爬蟲--利用HttpClient和Jsoup爬取部落格資料並存入資料庫

由於今日頭條等頭條類產品的出現，以今日頭條為代表所使用的爬蟲技術正在逐漸火熱，在爬蟲領域具有良好效能和較好效果的Python在最近一年的時間裡逐漸火熱起來，同時因為Python良好的資料分析和機器學習的能力，Python的應用越來越廣泛。不過，今天我們要提到

爬取部落格資訊的簡單爬蟲

呼叫 getOneBlogDetails( ) 函式可以獲取目標網頁的博主姓名，個人主頁網址，原創文章、粉絲、喜歡、評論數量，等級、訪問量、積分、排名。 #!/usr/lib/py

python實現kindle每天推送部落格2----python實現爬取部落格內容

python 批量爬取部落格資料(僅供學習)

#coding:utf-8 import urllib import time import os page=1 while page<=7: url=['']*50

python_爬取部落格文章下載到本地

學習python一段時間了，爬兩個網頁練練手，該原始碼是爬取韓寒部落格的所有文章，並將文章連結下載到本地，關於將部落格純文字下載到本地見博主另外一篇文章： # -*- coding: utf-8 -*

部落格園文章目錄索引

習慣在部落格園寫部落格了，也懶得將部落格搬到CSDN了故： >>為了方便瀏覽，在此建立一個部落格園文章目錄索引： 00，java基礎 01，java基礎精華 02，java23種設計模式 03，執行緒 04，資料結構 05，前端 06，資料庫 07

個性化定義部落格園 (一)---基礎準備以及新增動態背景和音樂控制元件

寫在前面擁有部落格僅僅只是開始，後續該怎樣美化部落格？怎樣使部落格更有個性？這都需要我們一點點去做。由此，我總結出了一些方法，希望能對你有所幫助。我們將以部落格園美化來教你怎樣自定義部落格，使它看起來更加的個性化。一，準備工作我的面板選擇的

你部落格園文章中的圖片可以放大嗎？反正我的是可以放大了！

序看看專案經理是如何實現的？外掛選擇試了幾個外掛，感覺還是 lightbox 外掛好用，連結：https://github.com/lokesh/lightbox2，該外掛具備如下幾個特點：

第八篇編寫spider爬取jobbole的所有文章

strip 狀態第一個 lds ont style cnblogs pycha 目標通過scrapy的Request和parse，我們能很容易的爬取所有列表頁的文章信息。 PS:parse.urljoin（response.url，post_url）的方法有個好處,

c# 編寫windows 服務，並制作安裝包

階段其他編譯 code 工程 component partial 控制臺程序自定義　　對服務的認識有很多個階段。　　第一階段：當時還在用c++，知道在一個進程裏while(True){}，然後裏面做很多很多事情，這就叫做服務了，界面可能當時還用Console控

股票交易日定時爬取上交所/深交所所有股票行情數據存儲到數據庫

prim bubuko urn 數據存儲 ont 交易 info mon 深圳一、該項目主要分以下三步組成：配置數據庫信息編寫爬蟲腳本配置Jenkins定時任務查看采集結果二、詳細過程 1.配置數據庫信息建表語句, 以其中部分字段為例： CREATE T

windows下nginx配置報錯GetFileAttributesEx - JohnnyWei - 部落格園

因為電腦螢幕出現亮點，拿去換屏了，所以使用了windows環境，安裝了下wlmp環境在配置Nginx的時候，發現配置沒有問題，但是老是訪問不了。 2015/08/24 15:03:59 [crit] 4560#3796: *222 GetFileAttributesEx() "d:\wwwroot

編寫windows服務 定時爬取部落格園文章 郵件提醒以及入庫

這段時間工作比較忙，每天也沒那麼多的時間逛部落格園看文章，於是就想寫一個工具 每天早上9點爬取文章給自己發郵件

作為每天的技術早餐。

相關推薦

編寫windows服務定時爬取部落格園文章郵件提醒以及入庫

這段時間工作比較忙，每天也沒那麼多的時間逛部落格園看文章，於是就想寫一個工具每天早上9點爬取文章給自己發郵件