1. 程式人生 > >爬蟲之小說爬取

爬蟲之小說爬取

 1 from bs4 import BeautifulSoup
 2 from urllib import request
 3 import requests
 4 import re
 5 import sys
 6 def Down_this_chapter(chapter_url,name):#單章下載
 7     r = requests.get(chapter_url,timeout = 30)#防止爬取時間過長造成爬蟲假死
 8     r.raise_for_status()#自動判斷返回的狀態碼是不是200
 9     r.encoding = r.apparent_encoding#
使用備用編碼代替現在的編碼,一般是'utf-8' 10 demo = r.text#獲得頁面文字資訊 11 soup=BeautifulSoup(demo,'lxml')#解析頁面 12 text=soup.find_all(id='content',class_='showtxt')#尋找特定標籤下的內容 13 soup_text = BeautifulSoup(str(text), 'lxml')#重寫解析頁面 14 demo1=soup_text.div.text.replace('\xa0','')#去除無用內容 15 print(name)
16 with open('D:一念永恆.txt','a',encoding='utf-8') as f:#將找到的內容寫到D盤下的檔案中 17 f.write('\t\t\t\t\t\t\t\t\t\t'+name+'\n')#處理章節名格式問題 18 f.write('' +demo1) 19 f.write('\n\n') 20 f.close() 21 22 def Novel_url(novel_url):#章節連結下載 23 r = requests.get(novel_url,timeout = 30)
24 r.raise_for_status() 25 r.encoding = r.apparent_encoding 26 demo = r.text 27 soup = BeautifulSoup(demo,'lxml') 28 text = soup.find_all('div',class_ = 'listmain') 29 soup_url = BeautifulSoup(str(text),'lxml') 30 flag=False 31 numbers=(len(soup_url.dl.contents) - 1)#為檢視下載進度服務 32 index=1 33 for child in soup_url.dl.children:#遍歷章節 34 if child!='\n':#過濾 35 if child.string ==u"《一念永恆》正文卷":#爬取正文卷 36 flag=True#識別符號 37 if flag==True and child.a!=None:#爬取章節連結的條件 38 download_url = "http://www.biqukan.com"+child.a.get('href')#獲得爬取連結 39 name = child.string 40 Down_this_chapter(download_url,name) 41 sys.stdout.write("已下載:%.3f%%" % float(index/numbers) + '\r') 42 sys.stdout.flush() 43 index += 1 44 45 def main (): 46 novel_url='http://www.biqukan.com/1_1094/'#獲得筆趣閣要爬取的小說的地址 47 Novel_url(novel_url)#爬取章節的連結 48 print("爬取小說成功,請到D盤下檢視") 49 main() 50 51 """下面是部分爬取結果: 52 外傳1 柯父。 53 已下載:0.000% 54 外傳2 楚玉嫣。 55 已下載:0.001% 56 外傳3 鸚鵡與皮凍。 57 已下載:0.001% 58 第一章 他叫白小純 59 已下載:0.002% 60 第二章 火灶房 61 已下載:0.002% 62 第三章 六句真言 63 已下載:0.002% 64 第四章 煉靈 65 已下載:0.003% 66 第五章 萬一丟了小命咋辦 67 已下載:0.003% 68 第六章 靈氣上頭 69 已下載:0.003% 70 第七章 龜紋認主 71 已下載:0.004% 72 第八章 我和你拼了! 73 已下載:0.004% 74 第九章 延年益壽丹 75 已下載:0.005% 76 第十章 師兄別走 77 已下載:0.005% 78 第十一章 侯小妹 79 已下載:0.005% 80 81 """