使用python爬取晉江文學城小說評論

阿新 • • 發佈：2021-08-21

使用python爬取晉江文學城小說評論資訊：評論id、評論樓層、評論使用者名稱、發表時間、章節id、評論內容

之前看到有作者想備份評論，就去看了下晉江頁面，沒有什麼反爬措施，評論內容都寫在html裡了，所以直接正則了。
有些評論數過多，所以每個csv儲存一章的評論（好像也沒什麼實用價值）。

"""
根據晉江小說的novelid和需要爬取的起始和終止章節，儲存這些章節的評論資訊
評論資訊包括：評論id、評論樓層、評論使用者名稱、發表時間、章節id、評論內容

訪問晉江評論庫不需要購買章節，可以隨機找一本
以該連結為例， http://www.jjwxc.net/onebook.php?novelid=2697774
novelid = 2697774
獲取 1-88章評論

"""

import requests
import re
import csv


# http://www.jjwxc.net/onebook.php?novelid=2697774
novelid = int(input("請輸入novelid：")) # 2697774

chapter_start = int(input("請輸入起始章節：")) # 1
chapter_end = int(input("請輸入終止章節：")) # 88

headers_dict = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
                  "AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36"
}


# 獲取html頁面程式碼
def getHTMLpage(url):
    page = requests.get(url, headers=headers_dict)
    page.close()
    page.encoding = "gb18030"
    return page


# 獲取某一章的評論頁數
def get_summary(page):
    pattern1 = re.compile(r"共有<span class='redtext'>(?P<comment_count>\d+)</span>條評論，"
                          r"分<span class='redtext'>(?P<page_count>\d+)</span>頁", re.S)
    result = pattern1.search(page.text)
    return int(result.group("page_count"))


# 獲取評論相關資訊
def get_re_result(page):
    pattern2 = re.compile(r'data-commentid="(?P<comment_id>.*?)"'
                          r'.*?<span class="coltext">.*?№(?P<comment_floor>\d+).*?網友'
                          r'.*?target="_blank">(?P<user_name>.*?)</a></span>'
                          r'.*?發表時間：(?P<comment_time>.*?)&nbsp'
                          r'.*?所評章節：.*?data-chapterid="(?P<chapter_id>.*?)">'
                          r'.*?mormalcomment_.*?>(?P<content>.*?)</span>', re.S)
    result = pattern2.finditer(page.text)
    return result


chapter_id = chapter_start
while chapter_id <= chapter_end:
    page_id = 1
    url_chap = f"https://www.jjwxc.net/comment.php?novelid={novelid}&chapterid={chapter_id}&page={page_id}"
    page1 = getHTMLpage(url_chap)

    # 跳過被鎖定章節
    try:
        page_count = get_summary(page1)
    except AttributeError:
        chapter_id += 1
        continue

    with open(f'{novelid}_chapter{chapter_id:03}_comments.csv', 'w', encoding="utf-8", newline='') as f:
        fieldnames = ["comment_id", "comment_floor", "user_name", "comment_time", "chapter_id", "content"]
        csv_writer = csv.DictWriter(f, fieldnames=fieldnames)
        csv_writer.writeheader()

        while page_id <= page_count:
            page_url = f"https://www.jjwxc.net/comment.php?novelid={novelid}&chapterid={chapter_id}&page={page_id}"
            page2 = getHTMLpage(page_url)
            comments = get_re_result(page2)
            for comment in comments:
                dic = comment.groupdict()
                csv_writer.writerow(dic)
            page_id += 1
        print(f'chapter {chapter_id:03} has been saved.')

    chapter_id += 1

使用python爬取晉江文學城小說評論

使用python爬取晉江文學城小說評論資訊：評論id、評論樓層、評論使用者名稱、發表時間、章節id、評論內容

用Python爬取了三大相親軟體評論區，結果...

小三：怎麼了小二？一副愁眉苦臉的樣子。小二：唉！這不是快過年了嗎，家裡又催相親了 ...

Python爬取網易雲歌曲評論，做詞雲分析

前言 emmmm 沒什麼說的，想說的都在程式碼裡環境使用 Python 3.8 直譯器 3.10 Pycharm 2021.2 專業版

Python爬取騰訊視訊評論的思路詳解

一、前提條件安裝了Fiddler了（用於抓包分析）谷歌或火狐瀏覽器如果是谷歌瀏覽器，還需要給谷歌瀏覽器安裝一個SwitchyOmega外掛，用於代理伺服器

python 爬取馬蜂窩景點翻頁文字評論的實現

使用Chrome、python3.7、requests庫和VSCode進行爬取馬蜂窩黃鶴樓的文字評論(http://www.mafengwo.cn/poi/5426285.html)。

Python實現爬取並分析電商評論

　　現如今各種APP、微信訂閱號、微博、購物網站等網站都允許使用者發表一些個人看法、意見、態度、評價、立場等資訊。針對這些資料，我們可以利用情感分析技術對其進行分析，總結出大量的有價值資訊。例如對商品評論

python爬取高匿代理IP（再也不用擔心會進小黑屋了）

為什麼要用代理IP 很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習更加高深的知識。那麼針對這三類人，我給大家提供

用Python爬取28010條《隱祕的角落》評論，有沒發現點什麼？

“一起去爬山吧？” 這句臺詞火爆了整個朋友圈，沒錯，就是來自最近熱門的《隱祕的角落》，豆瓣評分8.9分，好評不斷。

如何基於Python爬取隱祕的角落評論

“一起去爬山吧？” 這句臺詞火爆了整個朋友圈，沒錯，就是來自最近熱門的《隱祕的角落》，豆瓣評分8.9分，好評不斷。

Python爬蟲——基於xpath爬取58同城房源資訊！

1、需求獲取58同城上所有房源的標題資訊https://bj.58.com/ershoufang/ 2、分析使用抓包工具進行分析

Python爬取微信小程式通用方法程式碼例項詳解

背景介紹最近遇到一個需求，大致就是要獲取某個小程式上的資料。心想小程式本質上就是移動端加殼的瀏覽器，所以想到用Python去獲取資料。在網上學習了一下如何實現後，記錄一下我的實現過程以及所踩過的小坑。本文關

Python爬取微信小程式Charles實現過程圖解

一、前言最近需要獲取微信小程式上的資料進行分析處理，第一時間想到的方式就是採用python爬蟲爬取資料，嘗試後發現諸多問題，比如無法獲取目標網址、解析網址中存在指定引數的不確定性、加密問題等等，經過一番嘗試

Python爬取豆瓣急先鋒電影評論，龍叔的電影居然分這麼低

豆瓣電影首頁，亮麗的風景，居然這麼低的分，和同是國慶黨電影差距這麼大，唯一低分的還是國產木蘭，差不多低分的居然是女神劉亦菲，從小看龍叔電影、劉亦菲劍仙的人，不服了，看看評論是則麼說的。

Python 爬取大眾點評店鋪評論

1 import parsel 2 import pymysql 3 from lxml import etree 4 import re 5 import requests 6 def download_data(url,cookie):

Python 爬取某音某皮某博個關於’清華學姐‘事件網友對待這個態度，個10w評論

某皮 import json from mitmproxy import ctx def response(flow): #下面這個網址是通過fiddler獲取到的但是有些資料我們無法解密，所以需要用mitmdump捕獲資料包然後做分析

Python爬取 MT論壇主題帖，小批量抓取想看的主題

import requests from bs4 import BeautifulSoup from fake_useragent import UserAgent import random from lxml import etree

python爬取某音小姐姐短視訊，今天帶你全自動下載！

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

python爬蟲：爬取某牙直播小姐姐圖片，我的雙手已經按捺不住了

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

一篇文章教會你用Python爬取淘寶評論資料（寫在記事本）

【一、專案簡介】本文主要目標是採集淘寶的評價，找出客戶所需要的功能。統計客戶評價上面誇哪個功能多，比如防水，容量大，好看等等。

Python爬取小姐姐美照！

大家好我是阿喵今天教大家用如何用爬蟲爬取可愛小姐姐的美照第一步：現將python環境搭建好，工欲利其事必先利其器！第二步：尋找目標網站，我選擇的網站是http://www.win4000.com，裡面有一個美女板塊，裡面有

使用python爬取晉江文學城小說評論

相關推薦