一個網站新聞頁通用的正文抽取元件libnpce
阿新 • • 發佈:2020-08-09
一、背景
在輿情繫統中,通常會有一個網路新聞爬蟲子系統,準實時的採集網際網路上的媒體新聞資料,以供上層聚類事件分析。這類新聞資料的組成元素包括:
- 標題
- 釋出時間
- 來源及其URL連結地址
- 正文文字內容
- 正文圖片資訊(圖片位置、圖片的URL路徑等)
- 其他
二、libnpce元件
新聞文章正文抽取News Passage Content Extractor (NPCE),是為抽取HTML中的文章正文而設計的。該元件提供給予so動態連結庫的呼叫介面和給予RESTful服務呼叫的介面形式。並支援python呼叫介面。
詳細介紹可參考:https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/
三、元件演示
開啟頁面: https://gitee.com/inrgihc/libnpce/releases/v1.0
下載httpd_npce_py-v1.0-bin.tar.gz檔案,在centos環境下解壓,然後執行:
cd httpd_npce_py/
./startup.sh
命令啟動服務,開啟瀏覽器訪問伺服器上的服務:http://XXX.XXX.XXX.XXX:7645
在頁面中的URL欄中貼上一個新聞頁面的URL地址,然後點選右側的“抽取”按鈕檢視效果,我的截圖如下:
抽取的URL地址:http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml
三、效能測試
經本人工作期間,將libnpce與計算所的constor元件(閉源)進行比較測試,效能相當,並應用在公司底層的爬蟲模組中進行實時正文抽取。