Python爬蟲實戰專案之小說資訊爬取

阿新 • • 發佈：2019-01-03

我們以奇書網為例進行爬取

網址：https://www.qisuu.la

一，先新建一個新的資料夾，名字自取，用於存放py檔案和爬取的資料

二，找到要爬取的網站的ur和你自己瀏覽器的請求頭，（因為我是以奇書網為例，瀏覽器為火狐瀏覽器）

url= ‘https://www.qisuu.la/soft/sort01/’

請求頭：‘User_Anger’: 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'

（找不到請求頭的可以直接拿去用）

三，開始爬取

1建立一個類，並.定義初始化函式，在初始化函式中定義好url和請求頭，由於下面要用到的資料較多，所以我定義的比較多，程式碼如下：

class NovelSpider(object):
    def __init__(self):
      self.url = 'https://www.qisuu.la/soft/sort01/'
      self.html = ''
      self.herders = {
            'User_Anger': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'
        }
      self.total = 0
      self.count = 0
      self.retry_count = 0
        #建立Excel表格，用於儲存爬取的資料
      self.workbook = xlwt.Workbook(encoding='utf-8')
      self.sheet = self.workbook.add_sheet('novel_data')
      self.create_excel()

2，建立Excel表，用於儲存爬取的資料

    def create_excel(self):
        self.sheet.write(0, 0, '小說名稱')
        self.sheet.write(0, 1, '點選次數')
        self.sheet.write(0, 2, '文字大小')
        self.sheet.write(0, 3, '書籍型別')
        self.sheet.write(0, 4, '更新日期')
        self.sheet.write(0, 5, '連載狀態')
        self.sheet.write(0, 6, '書籍作者')
        self.sheet.write(0, 7, '執行環境')
        self.sheet.write(0, 8, '小說簡介')
        self.sheet.write(0, 9, '下載地址')

3.模擬瀏覽器傳送請求，並接受返回的網頁原始碼，程式碼如下：

        def get_html(self, url):

        # 1.建立request物件,設定隨機請求頭
            req = request.Request(url=url, headers={
            'User-Agent': choice(self.ua_list)
        })
        try:
            self.retry_count += 1
            # 2.發起請求
            response = request.urlopen(req)
            # 3.接收資料
            self.html = response.read().decode('utf-8')
        except Exception as e:
            # 請求重試次數大於3，放棄該請求
            if self.retry_count > 3:
                print('請求失敗，地址：{}'.format(url))
                return
            # 重新發送請求
            print('請求資料失敗，正在嘗試重新連線...')
            self.get_html(url)
        else:
            # 歸0
            self.retry_count = 0

4.用正則表示式來解析網頁原始碼，並獲取小說詳情頁的連結，程式碼如下：

    def get_story_link(self):
        """獲取小說頁面連結"""
         #用正則從網頁原始碼中匹配小說頁面的連結
        pattern = re.compile(r'<li>.*?<div class="s.*?<a href="(.*?)">.*?"',re.S)
        res = re.findall(pattern,self.html)
        if res:
            """遍歷小說連結"""
            for x in res:
                #拼接新的連結，並傳入請求函式中
                url =self.url2 + x
                self.get_html(url)
                # #解析小說網頁資料
                self.parse_story()

5.解析小說網頁的資料，拿到自己想要的資料，程式碼如下：

（我們在這裡找了小說資訊的部分資料）

    def parse_story(self):
        """解析小說頁面的資料"""
        #運用正則來匹配自己想要的資料
        pattern = re.compile(r'.*?detail_right".*?h1>(.*?)</h1.*?ul>.*?<li.*?：(.*?)<.*?：(.*?)<.*?：(.*?)<.*?：(.*?)<.*?：(.*?)<.*?：(.*?)<.*?：(.*?)<.*?showInfo".*?p>(.*?)</p.*?', re.S)
        res = re.findall(pattern, self.html)
        # for x in res:
        # print(res)
        #提取資料
        title = res[0][0]
        click_num = res[0][1]
        size = res[0][2]
        novel_type =res[0][3]
        datetime =res[0][4]
        status =res[0][5]
        author =res[0][6]
        run_sys =res[0][7]
        content =res[0][8]
        #儲存資料 

self.save_date(title,click_num,size,novel_type,datetime,status,author,run_sys,content)

6，儲存資料，儲存到Excel表中，程式碼如下：

    def write_to_excel(self, idx, data):
        #封裝寫入表格的函式
        print(idx, data)
        self.sheet.write(self.count, idx, data)

    def save_data(self, *args):
        self.count += 1
        print('正在儲存第{}本小說：{}'.format(self.count, args[0]))
        # 1.基礎寫法
        self.sheet.write(self.count, 0, args[0])
        self.sheet.write(self.count, 1, args[1])
        self.sheet.write(self.count, 2, args[2])
        self.sheet.write(self.count, 3, args[3])
        self.sheet.write(self.count, 4, args[4])
        self.sheet.write(self.count, 5, args[5])
        self.sheet.write(self.count, 6, args[6])
        self.sheet.write(self.count, 7, args[7])
        self.sheet.write(self.count, 8, args[8])
        self.sheet.write(self.count, 9, args[9])

        # 2.進階寫法
        # *args 將元組看做一個容器，進行列舉
        # for idx, data in enumerate(args):
        #     if idx == 8:
        #         data = data.replace('&#12288;', ' ')
        #
        #     self.write_to_excel(idx, data)

        # 3.終極寫法
        # rs = map(lambda idx, data: self.sheet.write(self.count, idx, data), range(10), args)
        # for x in rs:
        #     pass
        self.workbook.save('小說資料.xls')

7.執行函式：

def run(self):            
            #想獲取多少頁的資料 就把range函式裡面的後面的數字改一下
          for x in range(1, 11):
                print(''.center(50,'*'))
                print('正在獲取第%s頁資料，請稍後....' % (x))

                # 拼接完整的url地址
                url = t_info[0] + 'index_{}.html'.format(x)
                # 獲取該頁原始碼
                self.get_html(url)
                # 解析原始碼，提取資料
                self.parse_index()
                break

        self.workbook.save('小說資料.xls')

以上就是爬取小說的全部步驟，全部程式碼如下：

# -*- coding: utf-8 -*-
__author__ = 'wj'
__date__ = '2018/8/10 9:08'
import re
from random import choice
from urllib import request

import xlwt


class NovelSpider(object):

    def __init__(self):

        self.url = 'https://www.qisuu.la/soft/sort01/'
        self.html = ''
        self.ua_list = [
            'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0',
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2',
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36',
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36'
        ]
        self.total = 0
        self.count = 0
        self.retry_count = 0
        self.workbook = xlwt.Workbook(encoding='utf-8')
        self.sheet = self.workbook.add_sheet('novel_data')
        self.create_excel()

    def create_excel(self):
        self.sheet.write(0, 0, '小說名稱')
        self.sheet.write(0, 1, '點選次數')
        self.sheet.write(0, 2, '文字大小')
        self.sheet.write(0, 3, '書籍型別')
        self.sheet.write(0, 4, '更新日期')
        self.sheet.write(0, 5, '連載狀態')
        self.sheet.write(0, 6, '書籍作者')
        self.sheet.write(0, 7, '執行環境')
        self.sheet.write(0, 8, '小說簡介')
        self.sheet.write(0, 9, '下載地址')

    def get_html(self, url):

        # 1.建立request物件,設定隨機請求頭
        req = request.Request(url=url, headers={
            'User-Agent': choice(self.ua_list)
        })
        try:
            self.retry_count += 1
            # 2.發起請求
            response = request.urlopen(req)
            # 3.接收資料
            self.html = response.read().decode('utf-8')
        except Exception as e:
            # 請求重試次數大於3，放棄該請求
            if self.retry_count > 3:
                print('請求失敗，地址：{}'.format(url))
                return
            # 重新發送請求
            print('請求資料失敗，正在嘗試重新連線...')
            self.get_html(url)
        else:
            # 歸0
            self.retry_count = 0

    def get_total(self):
        # 1.獲取原始碼
        self.get_html(self.url)
        # 2.準備正則
        pattern = re.compile(r'<div class="tspage.*?/(.*?)&nbsp;', re.S)
        # 3.搜尋
        rs = re.search(pattern, self.html)

        if rs:
            self.total = int(rs.group(1))
            print(self.total)

    def parse_index(self):
        # 1.準備正則
        pattern = re.compile(r'<li.*?<div.*?class="s".*?<a href="(.*?)"', re.S)
        # 2.搜尋資料
        results = re.findall(pattern, self.html)
        # 3.迴圈遍歷每一個小連結
        for link in results:
            url = 'https://www.qisuu.la' + link
            # 4.獲取詳情頁面的原始碼
            self.get_html(url)
            # 5.解析詳情頁面資料
            self.parse_detail()

    def parse_detail(self):

        #1 準備正則
        pattern = re.compile(r"""<div class="detail_right.*?<h1>(.*?)</h1.*?<li.*?：(.*?)<.*?：(.*?)<.*?：(.*?)<.*?：(.*?)<.*?：(.*?)<.*?：(.*?)<.*?：(.*?)<.*?<div class="showInfo".*?<p.*?>(.*?)</p.*?get_down_url.*?,'(.*?)'""", re.S)

        results = re.findall(pattern, self.html)

        # 1.提取資料
        title = results[0][0]
        click_num = results[0][1]
        file_size = results[0][2]
        novel_type = results[0][3]
        datetime = results[0][4]
        status = results[0][5]
        author = results[0][6]
        run_sys = results[0][7]
        description = results[0][8].replace('&#12288;',' ')
        download = results[0][9]
        # 儲存資料
        self.save_data(title, click_num, file_size, novel_type, datetime, status, author, run_sys, description, download)

    # 封裝寫入excel表格的函式
    def write_to_excel(self, idx, data):
        print(idx, data)
        self.sheet.write(self.count, idx, data)

    def save_data(self, *args):
        self.count += 1
        print('正在儲存第{}本小說：{}'.format(self.count, args[0]))
        # 1.基礎寫法
        self.sheet.write(self.count, 0, args[0])
        self.sheet.write(self.count, 1, args[1])
        self.sheet.write(self.count, 2, args[2])
        self.sheet.write(self.count, 3, args[3])
        self.sheet.write(self.count, 4, args[4])
        self.sheet.write(self.count, 5, args[5])
        self.sheet.write(self.count, 6, args[6])
        self.sheet.write(self.count, 7, args[7])
        self.sheet.write(self.count, 8, args[8])
        self.sheet.write(self.count, 9, args[9])

        # 2.進階寫法
        # *args 將元組看做一個容器，進行列舉
        # for idx, data in enumerate(args):
        #     if idx == 8:
        #         data = data.replace('&#12288;', ' ')
        #
        #     self.write_to_excel(idx, data)

        # 3.終極寫法
        # rs = map(lambda idx, data: self.sheet.write(self.count, idx, data), range(10), args)
        # for x in rs:
        #     pass
        self.workbook.save('小說資料.xls')

    def parse_type(self):

        pattern = re.compile(r'<div class="nav">(.*?)</div>', re.S)
        res = re.search(pattern, self.html)

        if res:
            html = res.group(1)
            results = re.findall(re.compile(r'<a.*? href="(.*?)".*?>(.*?)</a>',re.S), html)

            # 返回所有分類地址
            # x是一個小元組
            return map(lambda x: ('https://www.qisuu.la'+x[0],x[1]), results[1:])

    def run(self):
        # 獲取總頁碼
        self.get_total()
        # 獲取所有分類地址
        types = self.parse_type()

        for t_info in types:
            # print(t_info)
            print('正在爬取{}下的小說.....'.format(t_info[1]))
            for x in range(1, self.total + 1):
                print(''.center(50,'*'))
                print('正在獲取%s下的第%s頁資料，請稍後....' % (t_info[1], x))

                # 拼接完整的url地址
                url = t_info[0] + 'index_{}.html'.format(x)
                # 獲取該頁原始碼
                self.get_html(url)
                # 解析原始碼，提取資料
                self.parse_index()
                break

        self.workbook.save('小說資料.xls')


if __name__ == '__main__':

    novel = NovelSpider()
    novel.run()

Python爬蟲實戰專案之小說資訊爬取

我們以奇書網為例進行爬取網址：https://www.qisuu.la 一，先新建一個新的資料夾，名字自取，用於存放py檔案和爬取的資料二，找到要爬取的網站的ur和你自己瀏覽器的請求頭，（因為我是以奇書網為例，瀏覽器為火狐瀏覽器）

Python爬蟲實戰（2）：爬取京東商品列表

1，引言在上一篇》，爬取了一個用Drupal做的論壇，是靜態頁面，抓取比較容易，即使直接解析html原始檔都可以抓取到需要的內容。相反，JavaScript實現的動態網頁內容，無法從html原始碼抓取

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

1.什麼是動態網站？動態網站和靜態網站的區別在於，網頁中常常包含JS，CSS等動態效果的內容或者檔案，這些內容也是網頁的有機整體。但對於瀏覽器來說，它是如何處理這些額外的檔案的呢？首先瀏覽器先下載html檔案，然後根據需要，下載JS等額外檔案，它會自動去下載它們，如果我們要爬取這些網頁中的動態

python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）

利用splash爬取京東商品資訊一、環境window7python3.5pycharmscrapyscrapy-splashMySQL二、簡介為了體驗scrapy-spla

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

Python爬蟲實戰一之使用Beautiful Soup抓取百度招聘資訊並存儲excel檔案

#encoding:utf-8 ''' Created on 2017年7月25日 @author: ******** ''' import urllib2 from bs4 import BeautifulSoup import xlrd,os from xlutils.copy import copy f

python 爬蟲如何通過scrapy框架簡單爬取網站資訊--以51job為例

Scrapy框架三大優點： Scrapy框架是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。框架的力量，使用者只需要定製開發幾個模組就可以輕鬆的實現一個爬蟲，用來抓取網頁內容以及各種圖片，非常之方便。 Scrapy

python爬蟲（1）——簡單的爬取網頁的資訊

獲取網上真實的語料資料，本身對Py的掌握不是很好，記錄下自己學習的過程，希望對你有幫助。 #python3 獲得taoeba的語料（不知道從哪翻到的這個網站，有各國語言的句子，訪問速度較慢 # -

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

Python爬蟲視訊教程：教你爬取QQ音樂資料（實戰處理+資料視覺化）-劉宇宙-專題視訊課程...

Python爬蟲視訊教程：教你爬取QQ音樂資料（實戰處理+資料視覺化）—704人已學習課程介紹本視訊課程主要培訓Python爬蟲入門，資料分析及資料視覺化實戰內容，通過本課的學習，您可以在2小時左右掌握Python基礎程式設計的核心內容，實現Python在爬

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

Python 爬蟲實例（7）—— 爬取新浪軍事新聞

secure host agen cat hand .com cati ica sts 我們打開新浪新聞，看到頁面如下，首先去爬取一級 url，圖片中藍色圓圈部分第二zh張圖片，顯示需要分頁，

python 爬蟲（一） requests+BeautifulSoup 爬取簡單網頁代碼示例

utf-8 bs4 rom 文章都是 Coding man header 文本以前搞偷偷摸摸的事，不對，是搞爬蟲都是用urllib，不過真的是很麻煩，下面就使用requests + BeautifulSoup 爬爬簡單的網頁。詳細介紹都在代碼中註釋了，大家可以參閱。

python爬蟲系列(3.7-使用 bs4 爬取獲取貴州農產品)

一、爬取資料步驟 1、爬取網站地址 2、實現程式碼 import requests from bs4 import BeautifulSoup class Food(object): def __init__(self): &nb

python 跨知乎app發私信以及Python專欄30萬用戶資訊爬取

import requests class SendMsg: def __init__(self): self.url='https://www.zhihu.com/api/v4/messages' #要傳送的資訊 self.data={'co

Python爬蟲基礎：驗證碼的爬取和識別詳解

今天要給大家介紹的是驗證碼的爬取和識別，不過只涉及到最簡單的圖形驗證碼，也是現在比較常見的一種型別。執行平臺：Windows Python版本：Python3.6 IDE: Sublime Text 其他：Chrome瀏覽器簡述流程：步驟1：簡單介紹驗證碼步驟2：

python爬蟲學習筆記三：圖片爬取

圖片爬取的程式碼 r.content 檔案的二進位制格式 Python引入了with語句來自動幫我們呼叫close()方法： open(path, ‘-模式-‘,encoding=’UTF-8’) w：以寫方式開啟， a：以追加模式開啟 (從 EOF 開始, 必要時建

python爬蟲總結: 網頁內容需要分類爬取

自學爬蟲中........... 有個在一爬蟲公司上班的朋友,今天和他聊了一會,給了我一個小專案,在這裡給大家分享一下專案需求: 在一個政府網站上爬取該市的環境處理公告分類爬取受理, 審批, 批覆頁面的表格內容以及釋出時間 2.要是用代理i

Python爬蟲教程：多執行緒爬取電子書

程式碼非常簡單，有咱們前面的教程做鋪墊，很少的程式碼就可以實現完整的功能了，最後把採集到的內容寫到 csv 檔案裡面，( csv 是啥，你百度一下就知道了) 這段程式碼是 IO密集操作我們採用 aiohttp 模

Python爬蟲實戰專案之小說資訊爬取

我們以奇書網為例進行爬取

相關推薦