一個網站新聞頁通用的正文抽取元件libnpce

阿新 • • 發佈：2020-08-09

一、背景

在輿情繫統中，通常會有一個網路新聞爬蟲子系統，準實時的採集網際網路上的媒體新聞資料，以供上層聚類事件分析。這類新聞資料的組成元素包括：

標題
釋出時間
來源及其URL連結地址
正文文字內容
正文圖片資訊（圖片位置、圖片的URL路徑等）
其他

二、libnpce元件

新聞文章正文抽取News Passage Content Extractor (NPCE)，是為抽取HTML中的文章正文而設計的。該元件提供給予so動態連結庫的呼叫介面和給予RESTful服務呼叫的介面形式。並支援python呼叫介面。

詳細介紹可參考：https://tangyibo.github.io/libariry/2020/01/17/a-news-passage-content-extractor-library/

三、元件演示

開啟頁面： https://gitee.com/inrgihc/libnpce/releases/v1.0

下載httpd_npce_py-v1.0-bin.tar.gz檔案，在centos環境下解壓，然後執行：

cd httpd_npce_py/
./startup.sh

命令啟動服務，開啟瀏覽器訪問伺服器上的服務：http://XXX.XXX.XXX.XXX:7645

在頁面中的URL欄中貼上一個新聞頁面的URL地址，然後點選右側的“抽取”按鈕檢視效果，我的截圖如下：

抽取的URL地址：http://news.sina.com.cn/c/2016-11-07/doc-ifxxnffr6962826.shtml

三、效能測試

經本人工作期間，將libnpce與計算所的constor元件（閉源）進行比較測試，效能相當，並應用在公司底層的爬蟲模組中進行實時正文抽取。

一個網站新聞頁通用的正文抽取元件libnpce

一、背景在輿情繫統中，通常會有一個網路新聞爬蟲子系統，準實時的採集網際網路上的媒體新聞資料，以供上層聚類事件分析。這類新聞資料的組成元素包括：

jQuery從零開始做一個分頁元件功能示例

本文例項講述了jQuery從零開始做一個分頁元件功能。分享給大家供大家參考，具體如下：

手寫一個分頁元件

技術標籤：htmlvue.js 先上圖父元件 <my-page :pageSize="pageSize" :total="allcount" @pageChange="pageChange"></my-page>

ant design vue 多個Tabs 標籤頁下使用 table元件滾動載入的坑【第一個tab頁可以滾動載入而切換第2 個tab不能觸發】

在ant design vue 的使用中總會遇到一些坑，如標題所言，這裡提供一個解決方法參考用

React實現一個通用骨架屏元件示例

目錄骨架屏是什麼？Demo設計思路具體實現骨架屏是什麼？找到這裡的同志，或多或少都對骨架屏有所瞭解，請容許我先囉嗦一句。骨架屏(Skeleton Screen)是一種優化使用者弱網體驗的方案，可以有效緩解使用者等待的焦躁

各種網站新聞正文抽取利器GeneralNewsExtractor

GNE在提取今日頭條、新浪，騰訊新聞等數百個中文新聞網站上效果非常出色，幾乎能夠達到100%的準確率。

Android實現觸發html頁面的Button控制元件點選事件方式

在android開發中，往往有時會載入html介面，同時需要與之html裡面的控制元件進行互動。這裡簡單介紹一下如何在android中觸發載入的html介面的Button控制元件。

Flutter 分頁功能表格控制元件詳細解析

前2天有讀者問到是否有帶分頁功能的表格控制元件，今天分頁功能的表格控制元件詳細解析。

Django學習筆記（2）簡單實現一個網站

預設使用了一個user模組，建立的django專案名為dj_test 1.user檔案下，models.py中寫上建立Category資料庫表

一個簡單的影象按鈕控制元件

下載demo project - 28.3 Kb 介紹 XGlyphButton是一個通用的按鈕控制元件，允許您在不需要ownerdraw控制元件的情況下在按鈕上使用影象。使用XGlyphButton，您可以顯示任何已安裝字型中的任何符號(例如，WingDings)

使用JavaScript為整個網站建立通用的Twitter按鈕

介紹本文展示瞭如何建立一個Twitter按鈕來共享動態更改的div或動態更改的url。這將是非常有用的，如果你想要共享任何基於使用者視口的URL。例如，假設您希望在使用者的curser位於div 1時共享URL 1，然後使用者單擊

基於django快速開發一個網站(一）

基於django快速開發一個網站(一） *建立虛擬環境、基於虛擬環境建立django==2.0.0和圖片載入庫和mysql資料庫驅動

基於django快速開發一個網站(三）

基於django快速開發一個網站(三） * 給django整合富文字編輯器 1. 下載富文字外掛到系統

建一個網站需要多少錢

為什麼80%的碼農都做不了架構師？>>> 建一個網站需要多少錢？很多需要建站但又不懂建站的朋友都會碰到這樣的疑問。要理清建站一個網站需要多少錢，我們首先要明白，建一個網站需要哪些東西，畢

怎麼看一個網站使用的技術棧？

看到了好網站，總是忍不住想要看看這些牛逼的網站使用了哪些技術，為自己以後的學習找準方向。但是檢視的原始碼總是經過了壓縮，很難看出來到底使用了哪些技術。下面有一個好網站，能夠幫我們分析出來網站使

win10系統怎麼遮蔽一個網站？

怎麼遮蔽一個網站？這是較為常見的問題，對於剛剛接觸win10系統的使用者們，還未掌握此類技巧的使用者佔大多數，為此，小編整理了以下文章，希望大家有所收穫。

公司做一個網站的流程是什麼？需要準備些什麼呢？

雖然隨著時代發展，網站的製作分的很細，但如果綜合來說，一個網站的製作在各個部分之間的接合是怎樣的？

建立一個網站主要包含哪些成本

前言: 我個人認為建立一個網站包含兩種方法,第一種自己寫程式碼,其他的伺服器,域名,等等都需要購買,第二種就是找外包或者專業團隊開發,以上兩者前者花費較少但質量肯定沒有專業的好,後者則反之.

白帽黑客與網安工程師教你Kali：跨站指令碼攻擊，隨便開啟一個網站就可能被黑客控制！

一、課前宣告： 1、本分享僅做學習交流，請自覺遵守法律法規！ 2、搜尋：Kali 與程式設計，學習更多網路攻防乾貨！ 3、Kali 與程式設計每天準時更新，敬請學習和關注！二、背景介紹 BeEF-XSS是一款非常強大

不想學，也完全不懂原始碼，怎麼自己去搭建一個網站？

想做一個網站，如何跳過學程式碼程式設計，就直接把網站建? 程式碼太難了，費時間，各種字母數字符號組合成的東西，看不懂，太難了，不想學，但但運營一個自己的網站

一個網站新聞頁通用的正文抽取元件libnpce

一、背景

二、libnpce元件

三、元件演示

三、效能測試

相關推薦