python實現爬取小說網站文字

阿新 • • 發佈：2022-03-18

簡單記錄一次python爬取某小說網站小說的操作

#!/usr/bin/python
# -*- coding:utf-8 -*-
import urllib.request
import re
# html = urllib.request.urlopen("https://xiaoshuo.net/0/745/")
# data = html.read()

#print(data)
# def getUrl(urlData):
#     print("test")
#     r = r"[a-zA-Z]+://[^\s]*.html"
#     pat = re.compile(r)
#     urls = re.findall(pat,str(urlData))
#     print(urls)
#
# getUrl(data)

from lxml.html import fromstring
from bs4 import BeautifulSoup
import urllib.request
import requests
import time

#給定網址和標題
def getContent(url,title):
    # html = urllib.request.get(url)
    # data = html.read().decode()
    # print(url)
    first = requests.get(url)
    if first.status_code!=200:
        time.sleep(3)       #網站伺服器可能不行，請求失敗就隔3s請求
        getContent(url,title)
        return
    data = first.content    #網頁內容
    soup = BeautifulSoup(data, "html.parser") #多種解析器，這裡選這個就夠用了
    # print(soup.prettify())
    content = soup.find_all("div", attrs={"id": "content"})
    # filename = title + ".txt"
    filename = "檔名稱.txt"   #檔名稱，自己改
    filea = open(filename, "a", encoding='utf-8')  #追加，把每一章合併成一個txt

    print(title,file=filea)     #輸出到檔案的內容
    print(content, file=filea)
    print("",file=filea)

    print(url + " " + title + " 下載儲存完畢") #提示該章下載完畢
    return

def getTitles(url):
    data = requests.get(url).content

    soup = BeautifulSoup(data, "html.parser")
    head = "https://xiaoshuo.net"
    middle = "/17/17225/"       #應該自動擷取，但是本來就簡單，根據需要寫死就行了。
    titles = soup.find_all("a")
    # print(titles)
    for title in titles:
        str1 = str(title)
        if str1.find(middle) != -1:
            if str1.find("https")!= -1:     #過濾一下網頁的連結
                continue
            elem = fromstring(str1)
            url = head + elem.attrib["href"]    #這些處理都是根據網頁結構弄的
            text = elem.text
            getContent(url, text)
            time.sleep(2)       #脆弱的伺服器，不能接收過多過快請求
getTitles("https://xiaoshuo.net/17/17225/")	#網址肯定是需要自己改的
#下載完畢，需要自行處理一些格式上的問題，還有編碼問題

要實現網頁訪問，方法也很多，針對這個靜態網站，感覺簡單的request.get就可以了。

還有就是我用的pycharm執行，開著fiddler好像有什麼代理錯誤，所以還是關閉系統代理伺服器下載吧。

python實現爬取小說網站文字

簡單記錄一次python爬取某小說網站小說的操作 #!/usr/bin/python # -*- coding:utf-8 -*- import urllib.request

python爬蟲實現爬取同一個網站的多頁資料的例項講解

對於一個網站的圖片、文字音視訊等，如果我們一個個的下載，不僅浪費時間，而且很容易出錯。Python爬蟲幫助我們獲取需要的資料，這個資料是可以快速批量的獲取。本文小編帶領大家通過python爬蟲獲取獲取總頁數並更改

Python實現爬取並分析電商評論

　　現如今各種APP、微信訂閱號、微博、購物網站等網站都允許使用者發表一些個人看法、意見、態度、評價、立場等資訊。針對這些資料，我們可以利用情感分析技術對其進行分析，總結出大量的有價值資訊。例如對商品評論

Python實現爬取網頁中動態載入的資料

在使用python爬蟲技術採集資料資訊時，經常會遇到在返回的網頁資訊中，無法抓取動態載入的可用資料。例如，獲取某網頁中，商品價格時就會出現此類現象。如下圖所示。本文將實現爬取網頁中類似的動態載入的資料。

python如何爬取動態網站

python有許多庫可以讓我們很方便地編寫網路爬蟲，爬取某些頁面，獲得有價值的資訊！但許多時候，爬蟲取到的頁面僅僅是一個靜態的頁面，即網頁的原始碼，就像在瀏覽器上的“檢視網頁原始碼”一樣。一些動態的東西如j

使用Python爬蟲爬取小紅書完完整整的全過程

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

10行程式碼，Python實現爬取淘寶/天貓評論

要做資料分析首先得有資料才行。對於我等平民來說，最廉價的獲取資料的方法，應該是用爬蟲在網路上爬取資料了。本文記錄一下筆者爬取天貓某商品的全過程，淘寶上面的店鋪也是類似的做法，不贅述。主要是分析頁面以及

Python用正則表示式實現爬取古詩文網站資訊

目錄分析古詩文1. 用正則表示式獲取總頁數2. 提取詩的標題3. 提取作者和朝代4. 提取詩的內容整理程式碼完整原始碼總結分析古詩文網站

python爬蟲爬取筆趣網小說網站過程圖解

首先：文章用到的解析庫介紹 BeautifulSoup： Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。

python爬蟲爬取幽默笑話網站

爬取網站為：http://xiaohua.zol.com.cn/youmo/ 檢視網頁機構，爬取笑話內容時存在如下問題：

Python3 實現爬取網站下所有URL方式

獲取首頁元素資訊：目標 test_URL：http://www.xxx.com.cn/ 首先檢查元素，a 標籤下是我們需要爬取得連結，通過獲取連結路徑，定位出我們需要的資訊

Python如何實現爬取B站視訊

5月3日晚，央視在《新聞聯播》前播放了B站青年宣言片《後浪》，這是B站首次登陸央視黃金時段，今天在朋友圈陸續看到相關的視訊。最早用B站的同學都知道，B站是和A站以異曲同工的鬼畜視訊及動漫，進入到大眾視野的非主

Python爬蟲爬取部落格實現視覺化過程解析

原始碼： from pyecharts import Bar import re import requests num=0 b=[] for i in range(1,11): link=\'https://www.cnblogs.com/echoDetected/default.html?page=\'+str(i)