1. 程式人生 > 實用技巧 >一個網站新聞頁通用的正文抽取元件libnpce

一個網站新聞頁通用的正文抽取元件libnpce

一、背景

在輿情繫統中,通常會有一個網路新聞爬蟲子系統,準實時的採集網際網路上的媒體新聞資料,以供上層聚類事件分析。這類新聞資料的組成元素包括:

  • 標題
  • 釋出時間
  • 來源及其URL連結地址
  • 正文文字內容
  • 正文圖片資訊(圖片位置、圖片的URL路徑等)
  • 其他

二、libnpce元件

新聞文章正文抽取News Passage Content Extractor (NPCE),是為抽取HTML中的文章正文而設計的。該元件提供給予so動態連結庫的呼叫介面和給予RESTful服務呼叫的介面形式。並支援python呼叫介面。

詳細介紹可參考:https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/

三、元件演示

開啟頁面: https://gitee.com/inrgihc/libnpce/releases/v1.0

下載httpd_npce_py-v1.0-bin.tar.gz檔案,在centos環境下解壓,然後執行:

cd httpd_npce_py/
./startup.sh

命令啟動服務,開啟瀏覽器訪問伺服器上的服務:http://XXX.XXX.XXX.XXX:7645

在頁面中的URL欄中貼上一個新聞頁面的URL地址,然後點選右側的“抽取”按鈕檢視效果,我的截圖如下:

抽取的URL地址:http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

三、效能測試

經本人工作期間,將libnpce與計算所的constor元件(閉源)進行比較測試,效能相當,並應用在公司底層的爬蟲模組中進行實時正文抽取。