常見的提取網頁正文的方法

阿新 • • 發佈：2017-09-04

new http spa selector sch lib join title 情況

Python readability的使用：

from readability.readability import Document

import urllib

html = urllib.urlopen(url).read()

readable_article = Document(html).summary()

readable_title = Document(html).short_title()

最後抽取出來的readable_article是帶HTML標簽的文本。還需要進行clean html操作。如果需要得到純文本內容，還需要做其他工作。

例如，提取正文

response = HtmlResponse(url=‘‘, body=readable_article, encoding=‘utf8‘)
hxs = HtmlXPathSelector(response)

html_content = ‘‘.join(hxs.select(‘//text()‘).extract()).strip()

不過這種方式有好多情況提取不到正文。

Python Newspaper的使用：

Newspaper: 這個庫可以實現由網上下載到解析，一條龍服務：

核心示例代碼如下所示：

from newspaper import Article

a = Article(‘http://www.chinanews.com/gj/2014/11-19/6791729.shtml, language=‘zh‘)

a.download()

a.parse()

結果：耗時會比較長，第一次執行耗時4s左右，解析效果也一般。

Python Goose的使用：

代碼比較方便，但是有些網址沒有解析出來。

示例代碼如下所示：

1 from goose import Goose
2 from goose.text import StopWordsChinese
3 url = ‘http://www.chinanews.com/gj/2014/11-19/6791729.shtml‘
4 g = Goose({‘stipwords_class‘:StopWordsChinese})
5 article = g.extract(url = url)
6 print article.cleaned_text[:150]

結果：效果不好，有些網址解析不出來。

常見的提取網頁正文的方法

new http spa selector sch lib join title 情況 Python readability的使用： from readability.readability import Document import urllib html = ur

Python readability提取網頁正文的優化

lib 使用網站內容 ear [0 resp strip 獲得 Python readability的使用： from readability.readability import Document import urllib html = urllib.urlope

Python網頁正文轉換語音檔案的操作方法

天氣真的是越來越冷啦，有時候我們想翻看網頁新聞，但是又冷的不想把手拿出來，移動滑鼠翻看。這時候，是不是特別想電腦像講故事一樣，給我們念出來呢？人生苦短，我有python啊，試試用 Python 來朗讀給你聽吧。網頁轉換成語音，步驟無外乎：網頁正文識別，獲取到正文的文字內容；文字轉語音，通過介面將文

網頁正文提取工具Beautiful Soup

Beautiful Soup是什麼？ Beautiful Soup is a Python library for pulling data out of HTML and XML files. I

網頁正文提取——Html2Article

為什麼要做正文提取一般做輿情分析，都會涉及到網頁正文內容提取。對於分析而言，有價值的資訊是正文部分，大多數情況下，為了便於分析，需要將網頁中和正文不相干的部分給剔除。可以說正文提取的好壞，直接影響了分析結果的好壞。對於特定的網站，我們可以分析其html結構，根據其結構來獲取正文資訊。先看一下下面這

網頁驗證碼的基本原理、常見漏洞及解決方法

前些天查了一些驗證碼的資料，瞭解了一些資訊，也發現了一些網站確實存在的漏洞。下文將分析驗證碼原理及存在的問題。首先宣告：本文僅僅探討技術，請各位讀者不要利用這些資訊進行非法行為，筆者不承擔任何連帶責任！當然，筆者能力有限，這裡也提供不了什麼實質性技術，只是將自己獲取的

銳捷Windows認證客戶端常見問題及處理方法

windows 銳捷認證客戶 1：無法開機自啟動？A：在客戶端設置界面中勾選開機自動運行項，並檢查系統或第三方軟件（主要是第三方WIFI或外掛之類軟件）是否配置了阻止客戶端的自動運行，可通過卸載或徹底停止相關軟件然後測試客戶端來確認。2：無法接收到通告消息？A：在客戶端設置界面中勾選校園網消息提

PHP兩個常見不常用的方法 method_exists call_user_func

php class str log 索引 truct all array blog method_exists判斷方法是否存在 <?php class F{ public function __construct(){ if(method_

Maven常見異常及解決方法

for display maven2 main collect nts exist temp set 異常1： [ERROR] Failed to execute goal on project biz_zhuhai: Could not resolve dependen

python 裏的常見的字符方法串處理

pca 其余串處理知識變量長度 href 全部不同的 str=‘Python String function‘ 生成字符串變量str=‘python String function‘字符串長度獲取：len(str)例：print ‘%s length=%d‘ %

AppFuse 3常見問題與解決方法

新建配置 ng- fuse contex ext 什麽 article ger 非常長一段時間沒做SSH項目了。近期抽出時間看了一下升級到3.x的appfuse，對新版本號使用過程中出現的一些問題進行了排查。匯總例如以下。以備後用。本文原文出處: http://blog

ecshop常見錯誤的處理方法

fin 路徑名一個 acc 版權 nbsp Language notice 自己的用ecshop，其中出現了不少錯誤，經常是滿世界找原因，今天分享幾個問題的解決辦法，方便大家及時處理。如果有相關的ecshop問題歡迎跟帖咨詢問題1:出現錯誤代碼：ECshop lib_b

web程序常見錯誤及解決方法

開始個數字 ice 依據文件中方法參數 500錯誤程序運行 404錯誤產生原因及解決方法在剛開始進行Web應用開發的時候，經常看見頁面出現404這個數字，我們一般會稱之為運行產生了404錯誤。類似於404這個數字，還有可能在頁面上看到405、500這兩個數字，他

銀河麒麟操作系統常見問題及解決方法（四）

更換架構 ash 信息技術 .cn 計算科技安裝問題 cti 銀河麒麟操作系統常見問題及解決方法（四） ——激活問題銀河麒麟操作系統是國防科大唯一授權給天津麒

常見的網頁加載進度條

加載 gif 通過常見 round mar chan back gin <style type="text/css"> /*遮罩在加載頁面上的div樣式*/ .loading{ width: 100%; height: 1

常見問題的解決方法

posit flex apt position pad 解決辦法 tab lin 常見因為環境原因，子級設置margin-top的時候，父級會一起下移，一般出現在設置最大容器的時候 margin-top：父級設overflow：hidden 父級找回高度：在子級

在Docker容器中部署靜態網頁的方法教程

tin uri ash led att bin get acf code 步驟:1.創建映射端口的交互式容器docker run -p 80 --name web -i -t daocloud.io/ubuntu /bin/bash2.安裝Nginxapt-get inst

用phpcms切換中英文網頁的方法（不用解析二級域名）、phpcms完成pc和手機端切換（同一域名）

msu 可用解決 start 這就是 arp header 欄目 profile AA。phpcms進行雙語切換方法（不用解析二級域名） phpcms進行兩種語言的切換，有一把部分的人都是進行的二級域名的解析，這樣的話可能會有一部分的麻煩，我這裏有一種方法可以不用解析二級

webpack構建工具常見問題及解決方法

webpack 常見問題 build報錯 webpack構建工具常見問題及解決方法在運用webpack開發項目的時候經常會遇到各種各樣的問題，我對實際開發項目中實際遇到的一些問題進行總結，希望能幫助到大家。 ?? 1. 構建需要的包未添加依賴報錯 Module not fo

HTTP協議的原理及常見的網頁狀態碼

transfer oca 升級 baidu 需要代理是否動畫 line 一：DNS DNS:域名解析正向解析：將域名解析為IP 反響解析：將IP解析為域名 DNS的特點：分布式、層次性域名空間結構：根域、頂級域（國家/地區域名）、二級域完整域名格式：FQDN=主

常見的提取網頁正文的方法

相關推薦