爬取糗事百科文欄位子,(2016年10月22日可用)
阿新 • • 發佈:2019-01-27
簡單的利用bs4提取了一些東西,中途嘗試了網上的多個版本,自己簡單的模仿了一下。
主要提取部分:
<a href="/article/117808662" target="_blank" class='contentHerf' >
<div class="content">
<span>偶遇小朋友玩家家酒!<br/>一小姑娘說:誰要扮演老公的?只見小男孩們紛紛舉起小手:我、我、我……<br/>好,這是你的搓衣板和尿壺,你就跪在這上面手上拖著尿壺,我在旁邊化妝</span>
</div>
</a>
找到相應class提取span即可
程式程式碼比較簡單,需要模擬一下瀏覽器訪問即可,正在學習計算機網路,第10行的內容可以根據自己的瀏覽器進行替換,學一下開發者工具還是很重要的。from urllib.request import urlopen ,Request from bs4 import BeautifulSoup import re import time x=1 def gogogo(page): global x url = "http://www.qiushibaike.com/text/page/"+str(page)+"/?s=4922848" H = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'} req = Request(url=url,headers=H) res = urlopen(req) H = BeautifulSoup(res,"html.parser") t = H.findAll('a',{"class":re.compile("content")}) for i in t: lists = i.find('span') f.write(str(x)+":") x=x+1 f.write(lists.get_text()) f.write("\n\n") time.sleep(1) if __name__ =="__main__": f = open("d.txt",'a',encoding='utf-8') for i in range(1,4): gogogo(i) print('Good Job!') f.close()