1. 程式人生 > 其它 >各種網站新聞正文抽取利器GeneralNewsExtractor

各種網站新聞正文抽取利器GeneralNewsExtractor

GNE在提取今日頭條、新浪,騰訊新聞等數百個中文新聞網站上效果非常出色,幾乎能夠達到100%的準確率。

先安裝庫

pip install --upgrade gne

呼叫

url 一個新聞連結 如“https://www.sohu.com/a/534140980_162522?editor=齊汝鈺 UN970&scm=1104.0.0.0&code=6e93c74798a862b7f4ff3678ec897623&spm=smpc.home.top-news1.10.1648782801103dvLNgA4&_f=index_cpc_5”

import requests
from gne import GeneralNewsExtractor

url = "新聞連結"

payload={}
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"
}

response = requests.request("GET", url, headers=headers, data=payload)

# print(response.text)
extractor = GeneralNewsExtractor()
article_content = extractor.extract(response.text)
print(article_content)

返回結果

{'title': '抗原檢測、核酸篩查異常別慌!專家傳授五字口訣', 'author': '環球網', 'publish_time': '2022-03-31 12:51', 'content': '原標題:抗原檢測、核酸篩查異常別慌!專家傳授五字口訣\n3月31日召開的上海市新冠肺炎疫情防控新聞釋出會(第139場)上,上海市疫情防控領導小組專家組成員、復旦大學上海醫學院副院長吳凡提醒,對於核酸篩查異常的,市民接到通知後,也要做好以下五部曲:\n一是“靜”:保持冷靜,千萬不要驚慌失措。\n二是“隔”:立即原地自我隔離,有條件的應當單人單間,戴好口罩,與他人保持一定距離,同時保持通訊暢通。\n三是“想”:仔細回顧自己近日的活動軌跡。\n四是“告”:告知近期與自己有密切接觸的人員也要立即固定,避免前往人員密集場所,做好自我健康監測,配合做好流調和管控工作。\n五是“備”:整理好自己去醫療機構或集中隔離救治點所需要的物品,如身份證、常用藥品、換洗衣物、生活用品等,特別提醒大家帶好手機充電線。\n在做好這五步後,就可以耐心等待有關部門進一步通知和後續轉運。對於混採檢測陽性的,市民接到通知後告知本人的位置資訊,同時立即原地固定,戴好口罩,與他人保持一定距離,靜待取樣人員進行核酸複核。\n吳凡同時提醒,市民朋友在日常抗原檢測中,若結果為陽性,首先不要恐懼驚慌,請冷靜做好以下三步曲:一是立即戴好口罩,與同住人保持一定距離,有條件的應當單人單間;二是第一時間上報給所在社群,告知地址和陽性情況,等待後續安排核酸檢測;三是收集好使用過的鼻拭子、取樣管、檢測卡等,裝入密封袋,後續交由管理人員按照醫療廢物處理。\n返回搜狐,檢視更多\n責任編輯:', 'images': []}

注:想過這種解決方案。有兩種思路:
1、對所有新聞網站的構建內容特徵庫。其實也很快,估計一個網站用時20分鐘就可以了。200主流媒體,也花不了1天的時間,而且準確100%!
2、想研究一個放之四海而皆準的方案。很多研究針對新聞正文內容抽取的演算法。但是準確率都不高。