Python3 使用bs4按標籤提取貼吧樓主發表內容
阿新 • • 發佈:2018-11-03
最近在貼吧看文,想要把樓主的發言內容全部弄下來,一個一個複製好麻煩。於是做了一個半自動的提取工具,很簡單。
沒有做登入抓取功能,因為比較麻煩,只是用一次就不做登入了。
其實就是一個按標籤過濾出來樓主的發言而已,當然頁面需要你自己開啟貼吧選擇只看樓主然後把網頁儲存為html形式,再執行本程式
#!/usr/bin/env python
#coding=utf-8
from bs4 import BeautifulSoup
import codecs
import sys
import re
#輸入儲存的html名稱即可過濾出想要的內容(需在同一個目錄)
namei = input("The HTML Name:" )
nameb = namei+".html"
namec = namei+".txt"
k = open(nameb,"rb")
l = k.read()
k.close()
soup = BeautifulSoup(l,"html.parser")
#樓主的標籤
jie = soup.find_all('div','d_post_content j_d_post_content ')
dr = re.compile(r'<[^>]+>',re.S)
dd = dr.sub('',str(jie))
#print(dd)
sucu = dd.encode()
la = open(namec,"wb" )
la.write(sucu)
la.close()
print("SUCCESS:"+nameb+"You have got:"+namec)
#最後會儲存成同名txt檔案