- Python HTML正文抽取（儲存為JSON） [ 筆記 ]

阿新 • • 發佈：2019-01-15

抽取HTML後的內容，一般都會儲存為JSON或者CSV格式。《Python爬蟲開發與專案實戰》一書中以小說閱讀網為例，抽取出小說的標題、章節、名稱和對應連結，那麼為了保險起見，還是老老實實照著來吧 ——

在抽取之前，作者在書中特意強調了一點，http://seputu.com/是一個靜態網站，它所有的標題章節名稱都不是由JavaScript動態載入的，雖然我不明白作者為什麼要特意強調這一點，但是既然他強調了，作為學習者，我也還是把這個前提提出來，至於為什麼，等我以後學會了爬蟲應該就知道為什麼了，反正現在不管

那麼開啟網站可以看到，整個小說的目錄是醬紫的，這裡只截圖一部分放出來，意思意思就可以了 ——

首先第一步：

當然是先進行網路請求，打印出請求的內容

# -*- coding:utf-8 -*-
import requests

# 1:請求
url = 'http://seputu.com/'
r = requests.get(url)
print r.content

剪下一下列印的內容：

可以看到：

大標題諸如“盜墓筆記1七星魯王宮”在<div class="mulu-title">下，然後其他的各個小章節，都在<div class="box">之下，那麼繼續coding —— 然後我悲催的發現，書上的例子跑不通，於是我只能對著例子刪刪改改：

# -*- coding:utf-8 -*-
import requests
from BeautifulSoup import *
import json

list = []

url = 'http://seputu.com/'
r = requests.get(url)  # 使用GET請求訪問連結
content = r.content
if r.status_code == requests.codes.ok:
    soup = BeautifulSoup(content, fromEncoding='utf-8')  # html.parser
    content = []
    for box in soup.findAll('div', attrs={'class': 'box'}):
        for a in box.findAll('a'):
            href = a.get('href')  # 每個小章節的連結
            title = a.get('title')  # 每個小章節的標題
            list.append({"href": href, "title": title})

    for mulu in soup.findAll('div', attrs={'class': 'mulu-title'}):
        mulu_title = mulu.h2.string  # 目錄大標題
        content.append({"mulu_title": mulu_title, "content": list})

    with open('mytest.json', 'wb') as fp:
        json.dump(content, fp=fp, indent=4)  # dump：把Python物件轉換成JSON物件，並將JSON物件通過fp檔案流寫入到檔案中
else:
    r.raise_for_status()

截圖一張最終效果：

總算是搞定了，拍桌~

- Python HTML正文抽取（儲存為JSON） [ 筆記 ]

- Python HTML正文抽取（儲存為JSON） [ 筆記 ]

json 資料持久化（以賬號和使用者名稱的儲存為例）

JQuery實現AJAX異步請求實現省市聯動（數據傳輸格式為json）

python獲取當天時間、昨天時間和明天時間或者n天時間（天為單位）

將python訓練好的模型儲存為pmml檔案供java呼叫

RHCS實現高可用中的共享儲存iscisi（mysql為例）

vue使用axios傳送post請求（data為json格式）

Python Pillow (PIL) Image.save 儲存為jpg圖片壓縮問題

Python入門經典. 以解決計算問題為導向的Python編程實踐（高清版）PDF

Python爬蟲抓取大資料崗位招聘資訊（51job為例）

Python Plot+Bokeh畫圖並儲存為圖片或網頁

如何正確開始一個python專案（django為例）

python：linux下字串轉換為JSON

python 將日期戳（五位數時間）轉換為標準時間

用python 讀取txt檔案並儲存為array

matlab心形動畫（儲存為gif格式）程式

資料儲存(無資料庫版)之一：儲存為JSON

Python抓取網頁並儲存為PDF

java連線mysql獲取資料儲存為json格式

python控制窗口移動（軌跡為圓）

- Python HTML正文抽取（儲存為JSON） [ 筆記 ]

相關推薦