1. 程式人生 > >常見的提取網頁正文的方法

常見的提取網頁正文的方法

new http spa selector sch lib join title 情況

Python readability的使用:

from readability.readability import Document

import urllib

html = urllib.urlopen(url).read()

readable_article = Document(html).summary()

readable_title = Document(html).short_title()

最後抽取出來的readable_article是帶HTML標簽的文本。還需要進行clean html操作。如果需要得到純文本內容,還需要做其他工作。

例如,提取正文

response = HtmlResponse(url=‘‘, body=readable_article, encoding=‘utf8‘)
hxs = HtmlXPathSelector(response)

html_content = ‘‘.join(hxs.select(‘//text()‘).extract()).strip()

不過這種方式有好多情況提取不到正文。

Python Newspaper的使用:

Newspaper: 這個庫可以實現由網上下載到解析,一條龍服務:

核心示例代碼如下所示:

from newspaper import Article
a = Article(‘http://www.chinanews.com/gj/2014/11-19/6791729.shtml, language=‘zh‘)
a.download()
a.parse()

結果:耗時會比較長,第一次執行耗時4s左右,解析效果也一般。

Python Goose的使用:

代碼比較方便,但是有些網址沒有解析出來。

示例代碼如下所示:

1 from goose import Goose
2 from goose.text import StopWordsChinese
3 url = ‘http://www.chinanews.com/gj/2014/11-19/6791729.shtml‘
4 g = Goose({‘stipwords_class‘:StopWordsChinese})
5 article = g.extract(url = url)
6 print article.cleaned_text[:150]

結果:效果不好,有些網址解析不出來。

常見的提取網頁正文的方法