GNE v0.04版更新，支援提取正文圖片與原始碼

阿新 • • 發佈：2020-06-24

GeneralNewsExtractor以下簡稱GNE是一個新聞網頁通用抽取器，能夠在不指定任何抽取規則的情況下，把新聞網站的正文提取出來。

我們來看一下它的基本使用方法。

安裝 GNE

使用 pip 安裝：

pip install --upgrade git+https://github.com/kingname/GeneralNewsExtractor.git
複製程式碼

當然你也可以使用pipenv安裝：

pipenv install git+https://github.com/kingname/GeneralNewsExtractor.git#egg=gne
複製程式碼

獲取新聞網頁原始碼

GNE 現在不會，將來也不會提供網頁請求的功能，所以你需要自行想辦法獲取經過渲染以後的

網頁原始碼。你可以使用Selenium或者Pyppeteer或者直接從瀏覽器上覆制。

這裡演示如何直接從瀏覽器中複製網頁的原始碼：

在 Chrome 瀏覽器中開啟對應頁面，然後開啟開發者工具，如下圖所示：

在Elements標籤頁定位到標籤，並右鍵，選擇Copy-Copy OuterHTML，如下圖所示

把原始碼儲存為1.html

提取正文資訊

編寫如下程式碼：

from gne import GeneralNewsExtractor

with open('1.html') as f:
    html = f.read()

extractor = GeneralNewsExtractor()
result = extractor.extract(html)
print(result)
複製程式碼

執行效果如下圖所示：

這次更新了什麼

在最新更新的 v0.04版本中，開放了正文圖片提取功能，與返回正文原始碼功能。其中返回圖片 URL 的功能在上面已經演示了，結果中的images欄位就是正文中的圖片。

那麼怎麼返回正文原始碼呢？只需要增加一個引數with_body_html=True即可：

from gne import GeneralNewsExtractor

with open('1.html') as f:
    html = f.read()

extractor = GeneralNewsExtractor()
result = extractor.extract(html,with_body_html=True 
)
print(result)
複製程式碼

執行效果如下圖所示：

返回結果中的body_html就是正文的 html 原始碼。

關於 GNE 的深入使用，可以訪問GNE 的Github: github.com/kingname/Ge…。

GNE v0.04版更新，支援提取正文圖片與原始碼

GeneralNewsExtractor以下簡稱GNE是一個新聞網頁通用抽取器，能夠在不指定任何抽取規則的情況下，把新聞網站的正文提取出來。

微軟 Skype Web 版更新，支援火狐 Firefox 等所有現代瀏覽器

10 月 25 日訊息，據 MSPoweruser 報道，當微軟過渡到基於 Chromium 的 Edge 瀏覽器時，他們對支援非 Chromium 平臺的動力變得有些不足，當微軟在 2019 年釋出新版 Skype Web 時，它只支援 Edge、Chrome 和 Opera，

小米 10 至尊版推送 MIUI 12.0.13 穩定版更新：支援小米妙享跨屏協作，控制中心智慧生活

10月19日訊息據網友反饋，今天小米10至尊紀念版手機推送了最新的MIUI 12.0.13.0.QJJCNXM 穩定版更新，帶來了小米妙享跨屏協作、新增新增控制中心支援智慧生活功能，便捷操作智慧。

蘋果 HomePod/mini 15 測試版更新，已支援無損音質

7 月 13 日訊息蘋果今日向部分 HomePod 和 HomePod mini 使用者推送了 HomePod 15 測試版更新，本次更新僅向受邀的使用者推送，因此沒有可供開發人員或公眾下載的版本，版本號目前未知。

微信安卓 8.0.9 測試版更新：支援多客戶端登入，個性提示音上線

7 月 20 日訊息感謝網友熱心線索投遞，繼微信 iOS 版後我們現又迎來了 8.0.9 正式版更新，更新頻率可謂非常快。值得一提的是，官方更新日誌這一次竟然破天荒地註明了部分更新內容。

Adobe MAX 2021 釋出 Photoshop 重磅更新，支援懸停自動蒙版物件選擇工具、全新神經網路濾鏡、更自然真實漸變...

10 月 27 日訊息，Adobe MAX 2021 今天拉開帷幕，隨之而來的是 Adobe 為其桌面和移動的 Creative Cloud 應用程式引入了新的功能。Creative Cloud 也在向 Web 擴充套件，並整合了一些新的共享功能，使設計協作更加容

微軟 Office iOS 版推出 v2.56 內測更新，支援多種語言實時轉錄

12 月 3 日訊息，據外媒 mspoweruser 報道，微軟於 12 月 2 日推出了 Office iOS 版 v2.56 更新（21120102）。這項更新帶來了新功能，支援多種語言的語音實時轉錄為文字。具體來看，該功能支援的語言包括中文、法語

蘋果 Apple 支援應用 4.4.2 版更新，可顯示 AirPods 是第幾代

感謝網友 SP_CE 的線索投遞！

統信桌面作業系統（專用裝置版）釋出更新，支援 ATM 機等自助服務裝置、軍工武器裝備等

3 月 1 日訊息，近日，統信桌面作業系統（專用裝置版）V20釋出更新。瞭解到，統信桌面作業系統（專用裝置版）V20 是專為自助服務裝置、網安裝置、軍工武器裝備等有固定用途的專用裝置量身定製，支援 Intel / AMD、龍

《軒轅劍柒》免費試玩版上線，支援光線追蹤

10 月 7 日訊息根據軒轅劍柒官方的訊息，《軒轅劍柒》免費試玩版現已在 Steam 和 WeGame 平臺同步解鎖，另外，在 10 月 11 日 20 點線上舉辦的《軒轅劍》三十週年交響音樂會直播中還將公佈關於《軒轅劍柒》的重大資

微軟 Edge 瀏覽器 86 穩定版更新：支援新標籤頁自定義背景

10 月 11 日訊息距 Edge 85 幾個月之後，微軟目前正在向 Windows 10 和 Mac 使用者推出基於 Chromium 渲染引擎 86 版本的 Edge 86 穩定版。

年後首更：小米 10 至尊紀念版推送 MIUI 12 穩定版更新，基於安卓 11 - IT之家

2 月 18 日訊息感謝網友熱心線索投遞，隨著春節假期的結束，小米手機現在迎來了首次系統更新。小米 10 至尊紀念版現已收到 MIUI 12.1.1.0.RJJCNXM1 穩定版更新，新版 MIUI 12 基於安卓 11，提供安全更新。

realme GT 明日 0 點開售：已推出首個版本更新，支援 DC 調光

3月9日訊息realme GT 手機於 3 月 4 日釋出，搭載高通驍龍 888 處理器、LPDR5 記憶體、UFS 3.1 快閃記憶體。手機螢幕為三星 SuperAMOLED 120Hz 高刷屏，支援 360Hz 觸控取樣率，覆蓋 100% P3 廣色域。

《靈媒》釋出 1.2 版更新：支援 21:9、32:9 超寬頻魚屏顯示器

3月11日訊息恐怖遊戲《靈媒》（The Medium）於 1 月 28 日正式釋出，售價 198 元人民幣，同時登陸 Steam 平臺以及 Xbox Series X/S、XGP 訂閱。這款遊戲於 2 月 13 日釋出了 1.1 版更新，修復了顯示卡利用率不足的 B

《孤島危機：重製版》PC 端 2.1.2 版更新，帶來光追增強模式

4 月 30 日訊息根據外媒 dsogaming 訊息，遊戲《孤島危機：重製版》的 PC 端於 4 月 29 日釋出了 2.1.2 版本更新，最重要的變化是加入了光追增強模式（RayTracing Boost Mode）。官方表示，該模式是一個實驗性體驗功

Steam 客戶端測試版更新，可管理已訂閱的創意工坊專案

5 月 26 日訊息昨日，Steam 測試版客戶端進行了更新。本次更新主要增加了新的頁面，玩家可以管理已訂閱的創意工坊專案，並且 Steam 聊天也進行了功能優化。

微信 iOS 8.0.8/ 安卓 8.0.7 測試版更新，開屏廣告優化

6 月 26 日訊息感謝網友熱心線索投遞，微信開發者現已更新 iOS 微信 8.0.8 版本和安卓微信 8.0.7 版本內測。iOS 版本現已開始招募，若報名成功則會在三天內會收到內測推送，內測名額 8000 人。

Redmi Note 10 Pro 獲 MIUI 12.5.5 更新，支援 2GB 記憶體擴充套件

6 月 30 日訊息Redmi Note 10 Pro 昨日獲推 MIUI 12.5.5 更新，更新版本號為 12.5.5.0.RKPCNXM，更新包大小為 3.1GB。

QQ 音樂 HD iPadOS 版 10.8.0 測試版更新：支援桌面歌詞

7 月 6 日訊息QQ 音樂 HD iPadOS 版現已迎來 10.8.0 測試版更新，支援設定桌面歌詞。

4199 元起：榮耀 MagicBook 14/15 銳龍版釋出，支援 Win11 正版升級

7 月 14 日訊息在今晚的釋出會上，榮耀正式釋出了榮耀 MagicBook14/15 的 2021 銳龍款，將於 7 月 20 日首銷。榮耀 MagicBook14（2021）售價：4499 元（R5 5500U，首發 4199 元）、4899 元 (R7 5700U)榮耀 MagicBo

GNE v0.04版更新，支援提取正文圖片與原始碼

安裝 GNE

獲取新聞網頁原始碼

提取正文資訊

這次更新了什麼

相關推薦