爬取csdn的資料與解析儲存（9）

阿新 • • 發佈：2020-07-19

安裝軟體：

pip instal pymysq

pip install peewee

建立資料模型orm

from peewee import *

db = MySQLDatabase("spider", host="127.0.0.1", port=3306, user="root", password="root")

class BaseModel(Model):
    class Meta:
        database = db

#設計資料表的時候有幾個重要點一定要注意
"""
char型別， 要設定最大長度
對於無法確定最大長度的欄位，可以設定為Text
設計表的時候 採集到的資料要儘量先做格式化處理
default和null 
=True
"""


class Topic(BaseModel):
    title = CharField()
    content = TextField(default="")
    id = IntegerField(primary_key=True)
    author = CharField()
    create_time = DateTimeField()
    answer_nums = IntegerField(default=0)
    click_nums = IntegerField(default=0)
    praised_nums = IntegerField(default 
=0)
    jtl = FloatField(default=0.0)  # 結帖率
    score = IntegerField(default=0)  # 賞分
    status = CharField()  # 狀態
    last_answer_time = DateTimeField()


class Answer(BaseModel):
    topic_id = IntegerField()
    author = CharField()
    content = TextField(default="")
    create_time = DateTimeField()
    parised_nums  
= IntegerField(default=0) #點贊數


class Author(BaseModel):
    name = CharField()
    id = CharField(primary_key=True)
    click_nums = IntegerField(default=0) #訪問數
    original_nums = IntegerField(default=0) #原創數
    forward_nums = IntegerField(default=0)  # 轉發數
    rate = IntegerField(default=-1)  # 排名
    answer_nums = IntegerField(default=0)  # 評論數
    parised_nums = IntegerField(default=0)  # 獲贊數
    desc = TextField(null=True)
    industry = CharField(null=True)
    location = CharField(null=True)
    follower_nums = IntegerField(default=0)  # 粉絲數
    following_nums = IntegerField(default=0)  # 關注數

if __name__ == "__main__":
    db.create_tables([Topic, Answer, Author])

資料爬取與解析：

"""
抓取
解析
儲存
"""
import re
import ast
from urllib import parse
from datetime import datetime

import requests
from scrapy import Selector

from csdn_spider.models import *

domain = "https://bbs.csdn.net"
def get_nodes_json():
    left_menu_text = requests.get("https://bbs.csdn.net/dynamic_js/left_menu.js?csdn").text
    nodes_str_match = re.search("forumNodes: (.*])", left_menu_text)
    if nodes_str_match:
        nodes_str = nodes_str_match.group(1).replace("null", "None")
        nodes_list = ast.literal_eval(nodes_str)
        return nodes_list
    return []

url_list = []
def process_nodes_list(nodes_list):
    #將js的格式提取出url到list中
    for item in nodes_list:
        if "url" in item:
            if item["url"]:
                url_list.append(item["url"])
            if "children" in item:
                process_nodes_list(item["children"])

def get_level1_list(nodes_list):
    level1_url = []
    for item in nodes_list:
        if "url" in item and item["url"]:
            level1_url.append(item["url"])

    return level1_url

def get_last_urls():
    #獲取最終需要抓取的url
    nodes_list = get_nodes_json()
    process_nodes_list(nodes_list)
    level1_url = get_level1_list(nodes_list)
    last_urls = []
    for url in url_list:
        if url not in level1_url:
            last_urls.append(url)
    all_urls = []
    for url in last_urls:
        all_urls.append(parse.urljoin(domain, url))
        all_urls.append(parse.urljoin(domain, url+"/recommend"))
        all_urls.append(parse.urljoin(domain, url+"/closed"))
    return all_urls


def parse_topic(url):
    #獲取帖子的詳情以及回覆
    topic_id = url.split("/")[-1]
    res_text = requests.get(url).text
    sel = Selector(text=res_text)
    all_divs = sel.xpath("//div[starts-with(@id, 'post-')]")
    topic_item = all_divs[0]
    content = topic_item.xpath(".//div[@class='post_body post_body_min_h']").extract()[0]
    praised_nums = topic_item.xpath(".//label[@class='red_praise digg']//em/text()").extract()[0]
    jtl_str = topic_item.xpath(".//div[@class='close_topic']/text()").extract()[0]
    jtl = 0
    jtl_match = re.search("(\d+)%", jtl_str)
    if jtl_match:
        jtl = int(jtl_match.group(1))
    existed_topics = Topic.select().where(Topic.id == topic_id)
    if existed_topics:
        topic = existed_topics[0]
        topic.content = content
        topic.jtl = jtl
        topic.praised_nums = praised_nums
        topic.save()

    for answer_item in all_divs[1:]:
        answer = Answer()
        answer.topic_id = topic_id
        author_info = answer_item.xpath(".//div[@class='nick_name']//a[1]/@href").extract()[0]
        author_id = author_info.split("/")[-1]
        create_time = answer_item.xpath(".//label[@class='date_time']/text()").extract()[0]
        create_time = datetime.strptime(create_time, "%Y-%m-%d %H:%M:%S")
        answer.author = author_id
        answer.create_time = create_time
        praised_nums = topic_item.xpath(".//label[@class='red_praise digg']//em/text()").extract()[0]
        answer.parised_nums = int(praised_nums)
        content = topic_item.xpath(".//div[@class='post_body post_body_min_h']").extract()[0]
        answer.content = content

        answer.save()

    next_page = sel.xpath("//a[@class='pageliststy next_page']/@href").extract()
    if next_page:
        next_url = parse.urljoin(domain, next_page[0])
        parse_topic(next_url)


def parse_author(url):
    author_id = url.split("/")[-1]
    # 獲取使用者的詳情
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0',
    }
    res_text = requests.get(url, headers=headers).text
    sel = Selector(text=res_text)
    author = Author()
    author.id = author_id
    all_li_strs = sel.xpath("//ul[@class='mod_my_t clearfix']/li/span/text()").extract()
    click_nums = all_li_strs[0]
    original_nums = all_li_strs[1]
    forward_nums = int(all_li_strs[2])
    rate = int(all_li_strs[3])
    answer_nums = int(all_li_strs[4])
    parised_nums = int(all_li_strs[5])

    author.click_nums = click_nums
    author.original_nums = original_nums
    author.forward_nums = forward_nums
    author.rate = rate
    author.answer_nums = answer_nums
    author.parised_nums = parised_nums

    desc = sel.xpath("//dd[@class='user_desc']/text()").extract()
    if desc:
        author.desc = desc[0].strip()
    person_b = sel.xpath("//dd[@class='person_b']/ul/li")
    for item in person_b:
        item_text = "".join(item.extract())
        if "csdnc-m-add" in item_text:
            location = item.xpath(".//span/text()").extract()[0].strip()
            author.location = location
        else:
            industry = item.xpath(".//span/text()").extract()[0].strip()
            author.industry = industry
    name = sel.xpath("//h4[@class='username']/text()").extract()[0]
    author.name = name.strip()
    existed_author = Author.select().where(Author.id == author_id)
    if existed_author:
        author.save()
    else:
        author.save(force_insert=True)


def parse_list(url):
    res_text = requests.get(url).text
    sel = Selector(text=res_text)
    all_trs = sel.xpath("//table[@class='forums_tab_table']//tr")[2:]
    for tr in all_trs:
        topic = Topic()

        if tr.xpath(".//td[1]/span/text()").extract():
            status = tr.xpath(".//td[1]/span/text()").extract()[0]
            topic.status = status
        if tr.xpath(".//td[2]/em/text()").extract():
            score = tr.xpath(".//td[2]/em/text()").extract()[0]
            topic.score = int(score)
        topic_url = parse.urljoin(domain, tr.xpath(".//td[3]/a/@href").extract()[0])
        topic_title = tr.xpath(".//td[3]/a/text()").extract()[0]
        author_url = parse.urljoin(domain,tr.xpath(".//td[4]/a/@href").extract()[0])
        author_id = author_url.split("/")[-1]
        create_time = tr.xpath(".//td[4]/em/text()").extract()[0]
        create_time = datetime.strptime(create_time, "%Y-%m-%d %H:%M")
        answer_info = tr.xpath(".//td[5]/span/text()").extract()[0]
        answer_nums = answer_info.split("/")[0]
        click_nums = answer_info.split("/")[1]
        last_time_str = tr.xpath(".//td[6]/em/text()").extract()[0]
        last_time = datetime.strptime(last_time_str, "%Y-%m-%d %H:%M")

        topic.id = int(topic_url.split("/")[-1])
        topic.title = topic_title
        topic.author = author_id
        topic.click_nums = int(click_nums)
        topic.answer_nums = int(answer_nums)
        topic.create_time = create_time
        topic.last_answer_time = last_time
        existed_topics = Topic.select().where(Topic.id==topic.id)
        if existed_topics:
            topic.save()
        else:
            topic.save(force_insert=True)

        parse_topic(topic_url)
        # parse_author(author_url)

    next_page = sel.xpath("//a[@class='pageliststy next_page']/@href").extract()
    if next_page:
        next_url = parse.urljoin(domain, next_page[0])
        parse_list(next_url)


if __name__ == "__main__":
    last_urls = get_last_urls()
    for url in last_urls:
        parse_list(url)
    print(last_urls)

爬取csdn的資料與解析儲存（9）

安裝軟體： pip instal pymysq pip install peewee 建立資料模型orm from peewee import * db = MySQLDatabase(\"spider\", host=\"127.0.0.1\", port=3306, user=\"root\", password=\"root\")

python爬蟲爬取網頁資料並解析資料

1.網路爬蟲的基本概念網路爬蟲（又稱網路蜘蛛，機器人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

Python爬取YY評級分數並儲存資料實現過程解析

前言當需要進行大規模查詢時（比如目前遇到的情形：查詢某個省所有發債企業的YY評級分數），人工查詢顯然太過費時，那就寫個爬蟲吧。

Python爬取豆瓣資料實現過程解析

程式碼如下 from bs4 import BeautifulSoup #網頁解析，獲取資料 import sys #正則表示式，進行文字匹配

詳解python爬取彈幕與資料分析

很不幸的是，由於疫情的關係，原本線下的AWD改成線上CTF了。這就很難受了，畢竟AWD還是要比CTF難一些的，與人鬥現在變成了與主辦方鬥。

Serilog 原始碼解析——資料的儲存（上）

在上一篇中，我們主要研究了Serilog是如何解析字串模板的，它只是單獨對字串模板的處理，對於日誌記錄時所附帶的資料沒有做任何的操作。在本篇中，我們著重研究日誌資料的儲存方式。(系列目錄)

Serilog 原始碼解析——資料的儲存（中）

上一篇文章中揭露了日誌資料的繫結邏輯，主要說明了日誌資料繫結的結果資訊，即EventProperty結構體和LogEventProperty類，以及日誌資料與具名屬性Token的繫結類PropertyBinder。在本文中，我們主要對PropertyValueC

爬取實習吧與python相關的招聘資訊及資料視覺化(含程式碼)

目錄資料爬取資料處理讀取檔案刪除無意義列刪除重複的值資料視覺化工資資訊視覺化城市資訊視覺化實習時間資訊視覺化 Jieba分詞對職位描述視覺化

爬蟲與Python：（三）基本庫的使用——擴充套件:requests爬取陽光電影網原始碼

要求本例主要希望讀者聯絡requests的使用，試著用它請求陽光電影網的首頁獲取頁面原始碼，並在控制檯打印出來，請求地址為：http://www.scyky.com/，需要實現的目標如下：

爬蟲與Python：（四）爬蟲進階一之資料抓取——2.Python模擬Ajax

如何用用Python模擬Ajax請求，我們仍然以飛常準大資料為例（https://data.variflight.com/analytics/CodeQuery），通過查詢北京機場的三個字母碼“PEK”來請求獲取它的資料，把北京機場的資訊提取出來。

Python爬取豆瓣音樂TOP250，爬取的資料儲存到csv檔案和xls檔案

爬取的目標網址：https://music.douban.com/top250 利用lxml庫，獲取前10頁的資訊，需要爬取的資訊包括歌曲名、表演者、流派、發行時間、評分和評論人數，把這些資訊存到csv和xls檔案

爬蟲與Python：（四）爬蟲進階二之資料儲存（資料庫儲存）——7.Redis儲存

Redis是一個開源的使用ANSI C語言編寫、遵從BSD協議、支援網路，以及可基於記憶體也可持久化日誌、Key-Value資料庫、並提供多種語言的API。它通常被稱為資料結構伺服器，因為值（value）可以是字串（string）、雜湊

爬蟲與Python：（四）爬蟲進階二之資料儲存（資料庫儲存）——8.PostgreSQL儲存

安裝PostgreSQL資料庫方法詳見：https://www.cnblogs.com/luyj00436/p/15525370.html。安裝庫

selenium實戰：視窗化爬取*寶資料（附原始碼連結）

完整程式碼&火狐瀏覽器驅動下載連結：https://pan.baidu.com/s/1pc8HnHNY8BvZLvNOdHwHBw 提取碼：4c08

史上最簡單的MySQL資料備份與還原教程（中）（三十六）

資料備份與還原第二篇，具體如下基礎概念：備份，將當前已有的資料或記錄另存一份；

史上最簡單的MySQL資料備份與還原教程（下）（三十七）

資料備份與還原第三篇，具體如下基礎概念：備份，將當前已有的資料或記錄另存一份；

史上最簡單的MySQL資料備份與還原教程（上）（三十五）

資料備份與還原第一篇分享給大家，具體內容如下基礎概念：備份，將當前已有的資料或記錄另存一份；

python 爬取疫情資料的原始碼

疫情資料程式原始碼 // An highlighted block import requests import json class epidemic_data(): def __init__(self,province):

SpringBoot中使用Jsoup爬取網站資料的方法

爬取資料匯入jar包 <properties> <java.version>1.8</java.version> <elasticsearch.version>7.6.1</elasticsearch.version>

Android——資料儲存（一）（檔案儲存）

檔案儲存檔案儲存是Android中最基本的一種資料儲存方式，它不對儲存內容進行任何的格式化處理，所有資料都是原封不動的儲存到檔案中的，因而它比較適合用於儲存一些簡單的文字資料或二進位制檔案。

爬取csdn的資料與解析儲存（9）

相關推薦