1. 程式人生 > >Python3 使用bs4按標籤提取貼吧樓主發表內容

Python3 使用bs4按標籤提取貼吧樓主發表內容

最近在貼吧看文,想要把樓主的發言內容全部弄下來,一個一個複製好麻煩。於是做了一個半自動的提取工具,很簡單。
沒有做登入抓取功能,因為比較麻煩,只是用一次就不做登入了。

其實就是一個按標籤過濾出來樓主的發言而已,當然頁面需要你自己開啟貼吧選擇只看樓主然後把網頁儲存為html形式,再執行本程式

#!/usr/bin/env python
#coding=utf-8
from bs4 import BeautifulSoup
import codecs
import sys
import re
#輸入儲存的html名稱即可過濾出想要的內容(需在同一個目錄)
namei = input("The HTML Name:"
) nameb = namei+".html" namec = namei+".txt" k = open(nameb,"rb") l = k.read() k.close() soup = BeautifulSoup(l,"html.parser") #樓主的標籤 jie = soup.find_all('div','d_post_content j_d_post_content ') dr = re.compile(r'<[^>]+>',re.S) dd = dr.sub('',str(jie)) #print(dd) sucu = dd.encode() la = open(namec,"wb"
) la.write(sucu) la.close() print("SUCCESS:"+nameb+"You have got:"+namec) #最後會儲存成同名txt檔案