爬蟲實戰：爬取免費小說

阿新 • • 發佈：2020-08-24

1.爬蟲實戰專案，爬取小說，只能爬取免費小說（VIP小說需要充錢登陸：方法有所差異，後續會進行講解）

　　本教程出於學習目的，如有犯規，請留言聯絡

　　爬取網站：起點中文網，盜墓筆記免費篇

　　https://book.qidian.com/info/68223#Catalog

2.網頁結構分析

結構分析發現：每一大標題在div元素裡面，是否免費，包含在div元素的孫子元素span的類屬性裡面（class='free' 還是 class='vip'）

因此：如果我們想要提取免費章節小說，需要先根據span元素進行判斷。

3.完整程式碼

#!/usr/bin/env python
#-*- coding:utf-8 -*- 


'''爬取盜墓筆記小說免費版
'''


import requests
from bs4 import BeautifulSoup


headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}

class Story(object):
    
    def __init__(self,url):
        self.url = url
    
    
     
def get_html(self,url):
        try:
            response = requests.get(url,headers=headers)
            if response.status_code == 200:
                return response.text
            else:
                return None
        except Exception as e:
            print('wrong', e)
    
    
    def get_soup(self,html):
         
try:
            soup = BeautifulSoup(html,'html.parser')
        except:
            soup = BeautifulSoup(html, 'xml')
        return soup


    def start(self):
        html = self.get_html(self.url)
        soup = self.get_soup(html)
        
        try:
            free_result = soup.select('div.volume span.free') 
            if free_result:
                for free in free_result:
                    chapters = free.parent.parent.select('li a')  # 理解為什麼要找到parent元素
                    for chapter in chapters:
                        title = chapter.text.strip().replace(' ', '_')
                        href = 'https:' + chapter['href']
                        
                        html = self.get_html(href)
                        soup = self.get_soup(html)
                        content =  soup.select('div.read-content')[0].text.strip().replace('\u3000', ' ')
                        print('\033[1;34m開始爬取:  {title}\033[0m'.format(**locals()))
                        with open(title+'.txt', 'w') as fw:
                            fw.write(content)
        except:
            None
    
    
    
if __name__ == '__main__':

    url = 'https://book.qidian.com/info/68223#Catalog'

    gg = Story(url)
    gg.start()

爬蟲實戰：爬取免費小說

1.爬蟲實戰專案，爬取小說，只能爬取免費小說（VIP小說需要充錢登陸：方法有所差異，後續會進行講解）

Python爬蟲實戰：爬取小姐姐最近的聽歌曲目

前言作為網易雲村的深度使用者，網易雲音樂應該是我除了微信外開啟時間最長的 App 了。並不是應為網易雲上面的歌曲多，而是因為那些走心的評論。邊聽歌邊刷評論，感覺就像是走進了他人的人生之中，從另外一種意義來

爬蟲實戰：爬取相親網站，看看當下年輕小姐姐的擇偶觀。

技術標籤：爬蟲爬蟲python 前言到了一定年齡，父母可能會催你找女朋友，結婚。大多數的父母催婚，是父母漸漸老了，想讓你找個人照顧你，有熱飯吃，生病了有人照顧。在外面不被人欺負。當然，也有一部分來自周

Python爬蟲實戰：爬取美團美食資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

Python爬蟲實戰：爬取淘女郎照片

本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片

Python爬蟲實戰：爬取首都醫科大學文章

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

關於爬蟲ip：爬取快代理的免費代理ip

import requests import parsel import time,random headers = { \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36\'

python爬蟲教程：爬取酷狗音樂，零基礎小白也能爬取哦

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

自動爬取網上免費代理實戰：爬取模組篇

1. 爬取模組說明爬取模組篇，主要從網上找到一些免費代理網站，網站內僅開放的一點免費代理抓取下來，爬取下來能用的代理可謂稀少，假設從一個代理網站首頁爬取20個免費代理，經過測試後剩下1、2個可用，因為免費的

Python爬蟲案例：爬取攜程評論

前言之前爬取美團，馬蜂窩等網站的資料都挺順利，大眾點評（這個反爬機制有點麻煩）在磕磕絆絆中也算成功（重點是網頁頁數的變化和關鍵字的隱藏替換）但攜程居然遇到了瓶頸。

Python爬蟲實戰：抓取京東蘋果手機評價

目錄 1. 網站分析 2. 示例程式碼 3. 注意事項 1. 網站分析很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習更加

爬蟲實戰 - 如何爬取B站視訊評論？

步驟（本次爬蟲僅以一個視訊為示例：連結）查詢評論請求api 解析URL 去掉第一個和最後一個引數可得評論URL，即：https://api.bilibili.com/x/v2/reply?jsonp=jsonp&pn=1&type=1&oid=585286365&a

typescript 學習筆記 - 簡單網頁爬蟲1：爬取整個網頁的內容

1. 新建資料夾。 crowller 2. 在資料夾下，進行 npm init -y ,進行初始化，出現package.json檔案。

Python爬蟲實戰——音樂爬取

技術標籤：pythonjson import requests import re import json #存放rid值的url url = "http://www.kuwo.cn/api/www/search/searchMusicBykeyWord?key=%E5%91%A8%E6%9D%B0%E4%BC%A6&pn=1&rn=30&