Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

阿新 • • 發佈：2018-11-15

執行平臺： Windows

Python版本： Python3.x

一、庫檔案

re
sys
BeautifulSoup
urllib.request
time

二、實戰

（1）背景介紹

從樂文小說網站上爬取小說相見歡，並存放至txt檔案中

URL：相見歡

（2）Beautifu Soup庫的簡介

簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下：

Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為簡單，所以不需要多少程式碼就可以寫出一個完整的應用程式。
Beautiful Soup自動將輸入文件轉換為Unicode編碼，輸出文件轉換為utf-8編碼。你不需要考慮編碼方式，除非文件沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了。然後，你僅僅需要說明一下原始編碼方式就可以了。
Beautiful Soup已成為和lxml、html6lib一樣出色的python直譯器，為使用者靈活地提供不同的解析策略或強勁的速度。

詳細請戳這裡： Beautiful Soup 4.2.0文件

（3）實戰進行中……

【重要】：python想要使用漢字，需要在指令碼最前面新增 #coding:utf-8，漢字使用的編碼為utf-8，否則會出現錯誤）

首先，我們引入我們需要的庫檔案

#coding:utf-8
import re
import sys
from bs4 import BeautifulSoup
import urllib.request
import time

接下來，我們進行爬蟲偽裝（偽裝報頭）

（本次教程的網站沒有反爬蟲機制，可以選擇跳過）

headers = ('User-Agent', 'Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1')
opener = urllib.request.build_opener()
opener.addheaders = {headers}
urllib.request.install_opener(opener)

我們從爬取單章開始，首先我們進入第一張的網址相見歡-第一章

url = "http://www.lewendu8.com/books/21/21335/6381842.html"
file = urllib.request.urlopen(url)
data = BeautifulSoup(file , from_encoding="utf8")

data = BeautifulSoup(file , from_encoding="utf8")

from_encoding= "utf8" 我們需要將內容進行轉碼，否則中文將會以亂碼形式出現

我們首先獲取這章的名稱

section_name = data.title.string
print(section_name)

執行結果：

section_name = data.title.string

我們利用這句話獲取文章的章名（我認為比較簡便的一種方法）

接下來我們需要獲取這章的內容！！（不然看什麼小說呢？）

我們按F12進入開發者功能，找出存放內容的標籤

按照父子順序細細劃分

於是，我們尋找到了存放內容的標籤

用下述語句將內容存放至section_text中

section_text = data.select( '#bgdiv .border_l_r #content p')[ 0].text

按照指定格式替換章節內容，運用正則表示式

section_text=re.sub( '\s+', '\r\n\t', section_text).strip( '\r\n')

執行結果

至此，我們單章爬取任務完成

接下來我們任務當然是獲取整本小說的內容了！

首先我們來比較一下每一章的網址

第一章：http://www.lewendu8.com/books/21/21335/6381842.html

第二章：http://www.lewendu8.com/books/21/21335/6381843.html

……

因此URL的構成：http://www.lewendu8.com/books/21/21335/章節序號.html

我們觀察網頁原始碼可以發現：

其中next_page = "6381843.html"便是下一章的章節序號

因此我們在每個網頁訪問結束時，便可以進行訪問下一章的網址

這裡我們使用正則匹配獲取下一章的章節序號

pt_nexturl = 'var next_page = "(.*?)"' nexturl_num = re.compile(pt_nexturl).findall(str(data)) nexturl_num = nexturl_num[ 0]

當我們訪問到相見歡最後一章時

當訪問到最後一章時，我們的小說已經全部爬取結束

此時正則匹配到的資訊為："http://www.lewendu8.com/books/21/21335/"

於是我們可以通過這個判斷我們是否爬取結束

        if(nexturl == 'http://www.lewendu8.com/books/21/21335/'):  
            break

當我們爬取到了內容當然要進行檔案讀寫進行存放

fp = open( '相見歡.txt', 'a') section_text = section_text fp.write(section_name+ "\n") fp.write(section_text+ "\n")

至此，本次爬取結束~您就可以將txt檔案存放到手機上，看小說嘍~

三、完整程式碼

#coding:utf-8
#author:Ericam_
import re
import sys
from bs4 import BeautifulSoup
import urllib.request
import time
headers = ('User-Agent', 'Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1')
opener = urllib.request.build_opener()
opener.addheaders = {headers}
urllib.request.install_opener(opener)

def get_download(url):
    file = urllib.request.urlopen(url)
    data = BeautifulSoup(file , from_encoding="utf8")    
    section_name = data.title.string
    section_text = data.select('#bgdiv .border_l_r #content p')[0].text        
    section_text=re.sub( '\s+', '\r\n\t', section_text).strip('\r\n')   
    fp = open('2.txt','a')   
    fp.write(section_name+"\n")  
    fp.write(section_text+"\n")  
    fp.close() 
    pt_nexturl = 'var next_page = "(.*?)"'
    nexturl_num = re.compile(pt_nexturl).findall(str(data))
    nexturl_num = nexturl_num[0]
    return nexturl_num

if __name__ == '__main__':
    url = "http://www.lewendu8.com/books/21/21335/6381842.html"
    num = 228
    index = 1
    get_download(url)
    while(True):
        nexturl = get_download(url)
        index += 1
        sys.stdout.write("已下載:%.3f%%" % float(index/num*100) + '\n')
        sys.stdout.flush()
        url = "http://www.lewendu8.com/books/21/21335/"+nexturl
        if(nexturl == 'http://www.lewendu8.com/books/21/21335/'):
            break
    print(time.clock())

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

執行平臺： Windows Python版本： Python3.x 一、庫檔案

Python爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows **Python版本： Python3.x ** 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 i

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows Python版本： Python3.x 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 instal

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

scrapy入門實戰練習（一）----爬取豆瓣電影top250

轉自知乎網工具和環境語言：python 2.7IDE： Pycharm瀏覽器：Chrome爬蟲框架：Scrapy 1.2.1教程正文觀察頁面結構通過觀察頁面決定讓我們的爬蟲獲取每一部電影的排名、電影名稱、評分和評分的人數。宣告ItemItems爬取的主要目標就是從非結構性的資

【Python3.6爬蟲學習記錄】（十）爬取教務處成績並儲存到Excel檔案中（哈工大）

前言：基本上每天都會產生一點小想法，在實現的過程中，一步步解決問題，併產生新的想法，就比如，這次是儲存為Excel檔案。這感覺很美妙！目錄：一，安裝並簡單使用xlwt 1.1 安裝xlwt 1.2 寫入Excel程式碼 1

python 爬蟲實戰（一）爬取豆瓣圖書top250

import requests from lxml import etree with open('booktop250.txt','w',encoding='utf-8') as f: f

asp.net core入門教程系列（一）

home padding 方式 title sys 活性 elf tro ash Asp.Net Core簡介 ASP.NET Core 是一個全新的開源、跨平臺框架，可以用它來構建基於網絡連接的現代雲應用程序，比如：Web 應用，IoT（Internet Of Thin

ORM框架疏理——廖雪峰實戰系列（一）

命令 delete ica 隱式 orm mod prim 數據結構 lam ORM（Object Relational Mapping，對象關系映射)，是一種程序設計技術，用於實現面向對象編程語言裏不同類型系統的數據之間的轉換。從效果上來說，它其實創建了一個可在編程語言裏

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

jQuery EasyUI快速入門實戰教程（一）-入門

jquery javascript easyui 1、jQuery EasyUI概述jQuery EasyUI是一組基於jQuery的UI插件集合體，而jQuery EasyUI的目標就是幫助web開發者更輕松的打造出功能豐富並且美觀的UI界面。開發者不需要編寫復雜的javascript，也不需要

Java EE入門教程系列（一）——第一章Java EE的概述（1）

題外話：這個系列是為了記錄學習Java EE的軌跡，也算是讀書筆記，是我先看完了一遍教程對相關概念有了一個大體印象以後準備再重頭細看一遍時同步寫的部落格。感想就是其實以前課堂上老師教的課都是很有作用的，如果你能很好地掌握設計模式、計算機網路的相關知識，那麼對你理解Java EE會有很大的幫助。可能是

DevOps實施實戰系列（一）：實施框架總覽

企業IT本身是個複雜的系統工程，這也是為什麼DevOps的實施不是一個一蹴而就的過程，大多數企業需要至少2~3年的時間才能夠逐步達成一個相對成熟的DevOps實施狀態。 DevOps落地也不應只停留在理論上。本系列文章旨在介紹一個非常清晰簡潔的DevOps實施框架（見題圖），幫助企業釐清落地步驟。

python爬蟲常見面試題（一）

前言　　之所以在這裡寫下python爬蟲常見面試題及解答，一是用作筆記，方便日後回憶；二是給自己一個和大家交流的機會，互相學習、進步，希望不正之處大家能給予指正；三是我也是網際網路寒潮下崗的那批人之一，為了找工作而做準備。一、題目部分 1、python中常用的資料結構有哪些？請簡要介紹一下。 2、

Python django 入門學習系列（二）

1 . 繫結 URL 與檢視函式 2 .使用Django模板系統這裡主要是跟著追夢的教程自己一邊看著一邊用於實踐來寫的步驟1：首先在專案應用的目錄下建立一個 urls.py 檔案在urls.py 中寫入： blog/urls.p

Python學習入門之列表（一）

Python學習入門之列表（一）列表是由一系列按特定順序排列的元素組成的，跟其他語言的陣列類似初始化陣列 names = ["zr","hc","ws","hj","fz"] nums = [1,2,3,9,4,5,8,7,6] 可以直接使用print函式直接將陣列所有

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

python爬蟲番外篇（一）進程，線程的初步了解

換來文本上下處理器 www 同時正在 cnblogs 多人原文地址https://www.cnblogs.com/zhaof/p/6994991.html 整理這番外篇的原因是希望能夠讓爬蟲的朋友更加理解這塊內容，因為爬蟲爬取數據可能很簡單，但是如何高效持久的爬

Gradle實戰系列（一）__初體驗

本系列文章主要目的並非要精通 Gradle ，而且是從應用的角度上，根據專案開發過程中，最經常用到的功能來說明如何從無到有建立自己的 Gradle 建構指令碼。必要條件在使用 Gradle 之前，首先假設讀者對於 Ant 及 Maven 已經有基本的

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

Python爬蟲入門實戰系列（一）--爬取網路小說並存放至txt檔案

相關推薦