Python利用Beautiful Soup抓取新聞標題

阿新 • • 發佈：2019-01-25

Beautiful Soup的簡介

簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下：

Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為簡單，所以不需要多少程式碼就可以寫出一個完整的應用程式。

Beautiful Soup自動將輸入文件轉換為Unicode編碼，輸出文件轉換為utf-8編碼。你不需要考慮編碼方式，除非文件沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然後，你僅僅需要說明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python直譯器，為使用者靈活地提供不同的解析策略或強勁的速度。

下面是程式碼：

import requests
from bs4 import BeautifulSoup

url = 'http://news.sina.com.cn/china/'
res = requests.get(url)
# 使用UTF-8編碼
res.encoding = 'UTF-8'

# 使用剖析器為html.parser
soup = BeautifulSoup(res.text, 'html.parser')

# 遍歷每一個class=news-item的節點 

for news in soup.select('.news-item'):
    h2 = news.select('h2')
    # 只選擇長度大於0的結果
    if len(h2) > 0:
        time = news.select('.time')[0].text
        title = h2[0].text
        href = h2[0].select('a')[0]['href']
        print(time, title, href)

Python利用Beautiful Soup抓取新聞標題

Python利用Beautiful Soup抓取新聞標題

Python爬蟲實戰一之使用Beautiful Soup抓取百度招聘資訊並存儲excel檔案

4、利用Request和Beautiful Soup抓取指定URL內容

用Beautiful Soup抓取資料的小例子

Win7，64位，Python使用Beautiful Soup 4抓取網易雲音樂歌單中的歌曲

如何利用Python網絡爬蟲抓取微信朋友圈的動態（上）

如何利用Python網絡爬蟲抓取微信好友數量以及微信好友的男女比例

利用Python網絡爬蟲抓取微信好友的所在省位和城市分布及其可視化

利用Python網絡爬蟲抓取微信好友的簽名及其可視化展示

python爬蟲之利用scrapy框架抓取新浪天氣資料

Python實例之抓取淘寶商品數據（json型數據）並保存為TXT

Python實例之抓取網易雲課堂搜索數據（post方式json型數據）並保存為TXT

利用 pyspider 框架抓取貓途鷹酒店信息

python知乎內容抓取（redis存儲）

Python3 學習4：使用Beautiful Soup爬取小說

用etree和Beautiful Soup爬取騰訊招聘網站

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

一起學爬蟲——使用Beautiful Soup爬取網頁！

python 理解Beautiful Soup庫的基本元素

Python爬蟲案例：抓取豆瓣程式設計類高評分書籍

Python利用Beautiful Soup抓取新聞標題

相關推薦