筆趣閣爬蟲

阿新 • • 發佈：2021-12-08

原始碼地址: https://gitee.com/Black-sky-cloud/python-spider/tree/master/bqg_Spider
exe 下載地址: https://www.lanzouw.com/iKz7gxdhsne 密碼:8d9f
不願意下載的可以直接複製下面程式碼:

點選檢視程式碼

"""
    這個爬蟲指令碼可以再筆趣閣中搜索相應的小說並爬取
"""
import requests
import time
from prettytable import PrettyTable
from lxml import etree

headers = {
    # 設定 UA 反爬
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36",
}


def search():
    """
    查詢並輸出搜尋到的相關圖書資訊
    :return:
    """
    se = requests.Session()
    se.get("https://www.biqugeq.com/")
    name = input("請輸入你要查詢的書名: \t")
    url = "https://www.biqugeq.com/search/?ie=gbk&siteid=xszww.com&q=" + name
    # 獲取查詢到的頁面
    res = etree.HTML(se.get(url, headers=headers).text)
    bookIndex = output(res)
    Save().__int__(se, bookIndex, name)


def output(res):
    """
    從 html 中獲取到 頁面列表進行 列印輸出
    :return:
    """
    cssLi = res.xpath('//div[@class="l bd"]/ul')[0]
    bookNames = cssLi.xpath("li/span[2]/a/text()")
    authors = cssLi.xpath("li/span[4]/text()")
    table = PrettyTable(['序號', '書名', '作者名'])
    for i in range(len(bookNames)):
        table.add_row([i + 1, bookNames[i], authors[i]])
    table.align[1] = "c"
    print(table)
    num = input("請輸入圖書序號開始下載: \t")
    return "https://www.biqugeq.com" + cssLi.xpath("li[" + num + "]/span[2]/a/@href")[0]


class Save():
    """
        拿到 url 後 爬取每一頁 url 儲存
    """
    pageDict = {}

    def __int__(self, session, url, book):
        self.session = session
        self.url = url
        self.book = book
        self.path = input("請輸入你要儲存的位置路徑, 輸入0或按回車 預設儲存到D盤根目錄: \t")
        pageList = self.getHeadHtml()
        for i in pageList:
            self.save(self.getText(i), self.book)
            time.sleep(2)

    def getHeadHtml(self):
        """
        獲取當前頁面的 html 中每一章的請求路徑
        :return: text 資料
        """
        #  請求連結地址
        res = self.session.get(self.url, headers=headers)
        # 設定字符集編碼
        res.encoding = "gbk123"
        # 格式化拿到的 html 頁面
        etreeHtml = etree.HTML(res.text)
        # uri 請求頭
        urlHead = "https://www.biqugeq.com"
        # 獲取首頁每一章的請求地址
        urlNoHeadList = etreeHtml.xpath('//div[@class="listmain"]/dl/dd/a/@href')[12:]
        pageList = []
        for i in urlNoHeadList:
            # 拼接 uri
            pageList.append(urlHead + i)
        return pageList

    def getText(self, href):
        #  請求連結地址
        res = self.session.get(href, headers=headers)
        # 設定字符集編碼
        res.encoding = "gbk123"
        # 格式化拿到的 html 頁面
        etreeHtml = etree.HTML(res.text)

        # 獲取章節名
        pageName = etreeHtml.xpath('//div[@class="content"]/h1/text()')[0]
        # 獲取章節內容
        pageTextList = etreeHtml.xpath('//div[@id="content"]/text()')
        pageText = ""
        for i in pageTextList:
            pageText += i.replace("\u3000", "").replace("\n", "").replace("(https://www.biqumo.com/0_269/2243417.html)",
                                                                          "").replace(
                "請記住本書首發域名：https://www.biqumo.com。筆趣閣手機版閱讀網址：https://m.biqumo.com", "").replace(
                "(https://www.biqumo.com/2_2784/57553374.html)", "")
        return [pageName, pageText]

    def save(self, page, bookName):
        # path = input("請輸入你要儲存的位置路徑, 輸入0或按回車 預設儲存到D盤根目錄: \t")
        savePath = ""
        if self.path == "0":
            savePath = "D://" + bookName + ".txt"
        elif self.path == "":
            savePath = "D://" + bookName + ".txt"
        else:
            savePath = self.path + "/" + bookName + ".txt"
        pageName = page[0]
        pageText = page[1]
        print("開始儲存 {}".format(pageName))
        with open(savePath, "a", encoding="utf8") as f:
            f.write(pageName)
            f.write("\n\n")
            f.write(pageText)
            f.write("\n\n")


if __name__ == '__main__':
    search()

筆趣閣爬蟲

原始碼地址: https://gitee.com/Black-sky-cloud/python-spider/tree/master/bqg_Spider exe 下載地址: https://www.lanzouw.com/iKz7gxdhsne 密碼:8d9f

【爬蟲】對新筆趣閣小說進行爬取，儲存和下載

以前挺愛在筆趣閣看小說的（老白嫖怪了）現在學了一點爬蟲技術，就自然而然的想到了爬取筆趣閣的小說也算鍛鍊一下自己的技術，就以新筆趣閣開始

Python爬蟲入門實戰專案--爬取新筆趣閣小說

1、網頁檢視進入到全部小說，這就是我們要爬取的小說，這些夠看很長時間了

爬取新筆趣閣小說！適合新手入門的小案例！

爬取筆趣閣小說（搜尋+爬取）首先看看最終效果（gif）：實現步驟：1.探查網站“http://www.xbiquge.la/”，看看網站的實現原理。

10行Python程式碼，採集筆趣閣小說！

需要的匯入的包： import requests import re 爬取筆趣閣小說：很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如

Python爬取新筆趣閣小說

Python爬取小說，並儲存到TXT檔案中我寫的這篇文章，是利用Python爬取小說編寫的程式，這是我學習Python爬蟲當中自己獨立寫的第一個程式，中途也遇到了一些困難，但是最後迎刃而解了。這個程式非常的簡單，程式的大

Python學習筆記，爬取筆趣閣小說

程式碼來源：Python爬取筆趣閣小說，有趣又實用學習了基礎的語法，然後網上看到有人分享利用python爬取小說，自己拷貝了程式碼嘗試了一下。

用python爬取新筆趣閣的所有小說，使用xpath提取

執行後會在執行的目錄下面建立一個建立一個筆趣閣的目錄，小說會一每個目錄分類，每部小說的章節都會在對應的小說目錄裡面

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

Python拾趣015 Requests和BeautifulSoup4爬蟲配置安裝

Python可以方便完成基本的網路爬蟲功能。用Requests抓Https網頁，再用BeautifulSoup4分析，就可以得到我們要的資料。

Wii Remote——支援上下左右四個方向的幻燈片翻頁筆

如果你用 reveal.js 做幻燈片，你會發現沒有合適的翻頁筆可以用。具體來說，是沒有支援上下左右四個方向的翻頁筆。

爬蟲的介紹

作為程式設計師，相信大家對“爬蟲”這個詞並不陌生，身邊常常會有人提這個詞，在不瞭解它的人眼中，會覺得這個技術很高階很神祕。不用著急，我們的爬蟲系列就是帶你去揭開它的神祕面紗，探尋它真實的面目。

web爬蟲系列（一）- 爬取電影天堂迅雷地址

一、爬蟲介紹目前爬蟲框架層出不窮，當然很多公司也會根據自己的業務做二次開發，Java的有WebMagic和WebCollector等，Python的有PySpider和Scrapy等。不能說孰好孰壞，只能說根據自己的業務場景選擇不同框架，Pytho

小白學 Python 爬蟲（8）：網頁基礎

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝

爬蟲實戰之Scrapy模擬登陸

想爬取網站資料？先登入網站！對於大多數大型網站來說，想要爬取他們的資料，第一道門檻就是登入網站。下面請跟隨我的步伐來學習如何模擬登陸網站。

WebMagic 實現爬蟲入門教程

本示例實現某電影網站最新片源名稱列表及詳情頁下載地址的抓取。 webmagic是一個開源的Java垂直爬蟲框架，目標是簡化爬蟲的開發流程，讓開發者專注於邏輯功能的開發。

小白學的python爬蟲課程——第一天

前言? 好久不見，甚是想念。我發現如今的遊戲真是越來越好玩，視訊真是越來越好看，最後恩是甩都甩不脫。

Python 爬蟲入門實戰

1. 前言首先自我介紹一下，我是一個做 Java 的開發人員，從今年下半年開始，一直在各大技術部落格網站發表自己的一些技術文章，差不多有幾個月了，之前在 cnblog 部落格園加了網站統計程式碼，看到每天的訪問量逐

3行寫爬蟲 - 使用 Goribot 快速構建 Golang 爬蟲

zhshch2002/goribot: [Crawler/Scraper for Golang]Make a Golang spider in 3 lines是我的一個業餘專案，目的是能儘可能簡潔的使用Golang開發爬蟲應用。

筆趣閣爬蟲

相關推薦