試驗python爬取逐浪小說

阿新 • • 發佈：2019-02-08

只是想試下用python爬網頁，之前用米花，後來米花不知道怎麼回事打不開了，就用的逐浪。

#coding:utf-8

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

import urllib,sys,urllib2,os
from bs4 import BeautifulSoup

IMAGE_DIR = '/home/cloud/temp/' #存放目錄
if not os.path.exists(IMAGE_DIR):
os.mkdir(IMAGE_DIR)

def get_book_without_db(url):
"""一邊爬取一邊寫入，不用資料庫儲存"""
soup = BeautifulSoup(request(url))
title = (soup.find_all("title"))[0].string.split('_')[0] #文章名

book_path = os.path.join(IMAGE_DIR, title)
book = open(book_path, 'a+')
i = 1
for volume in soup.find_all('h2'):
i += 1
volume_name = volume.text
print type(volume_name)
book.write(str(volume_name) + '\n\n\n')
for chapter in soup.find_all('ul')[i].find_all("li"):
chapter_name = chapter.find('a').text
book.write(str(chapter_name) + '\n')

chapter_url = chapter.find('a').get('href')
content_soup = BeautifulSoup(request(chapter_url))
content = content_soup.find_all("p")[0].contents[0]
book.write(str(content) + '\n\n')
book.close()
print '書籍路徑: ', book_path

get_book_without_db('testurl')

其中，testurl是小說目錄。

因為是自學的，程式碼中獲取內容有些還是debug時看記憶體才寫的，所以可能不規範。

另外，我爬取的文章內容是一段字串，沒有自動換行。百度沒有查到，哪位知道的可否告知一下，文章內容該怎麼自動換行？

註釋：後來發現有個也是爬取逐浪的：http://www.oschina.net/code/snippet_1788589_48365

巧合啊，我是在優書網隨便選的一個網站。不過此文好像也沒有自動換行

試驗python爬取逐浪小說

試驗python爬取逐浪小說

python 爬取新浪網站 NBA球員最近2個賽季庫裡前20場資料

Python爬取新浪微博用戶信息及內容

python爬取新浪股票資料—繪圖【原創分享】

python爬取新浪財經的股票資訊

【python 新浪微博爬蟲】python 爬取新浪微博24小時熱門話題top500

Python爬取新浪微信評論，瞭解一下

用python爬取新浪微博資料（無需手動獲取cookie)

利用python爬取點小圖片，滿足私欲(爬蟲)

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

python爬蟲爬取新浪新聞的評論數以及部分評論

利用Python爬取500萬以上的國產自拍小電影哦！

python爬取百度圖片---釋出exe小計編碼是個大坑

python：爬取新浪新聞的內容

使用python-requests+Fiddler4+appium爬蟲,批量爬取抖音小視訊

python爬取小視訊——梨視訊

python爬取無水印抖音小姐姐視訊(2018最新,含Pyqt客戶端)

python爬取電影原始碼，小編以後看電影再也不用VIP了（有程式碼）

python 3.3 爬取網頁資訊小例

python-貼吧圖片爬取的一個小指令碼

試驗python爬取逐浪小說

相關推薦