Python爬取學校文章並儲存mysql

阿新 • • 發佈：2020-11-29

Python爬取學校文章並儲存mysql

python爬取學校文章並儲存mysql

問題簡介

爬取福⼤要⽂（http://news.fzu.edu.cn/html/fdyw/）要求： 1.包含釋出⽇期，作者，標題，閱讀數以及正⽂。 2.可⾃動翻⻚。 3.範圍：2020年內

思路

要獲得的資料一共可以分為幾個階段：
1.釋出⽇期，標題，二級網址可以從一級網址網頁原始碼獲得（http://news.fzu.edu.cn/html/fdyw/1.html）
【1.html代表當前是第一頁，要翻頁把這裡改成2/3/…html】


<div  class="list_main_content">
<ul>
          
     
<li>
    <span class="list_time">2020-11-26</span>
    <a href="/html/fdyw/2020/11/26/f1981f47-bd8a-4edb-8340-d0bd213f3c4b.html">福州大學實現福建省屬高校獲批國家重大科研儀器研製專案零的突破</a>
</li>
......(⽇期，標題，二級網址的一部分在這個節點)

2.作者，正文內容，閱讀數介面網址可以從二級網址網頁原始碼獲得

閱讀數介面網址需要進行一定處理

$.ajax(
{type:'post',
url:'/interFace/getDocReadCount.do?id=506980',（需要獲得的閱讀數介面網址）
timeout:2000,
.......

3.閱讀數需要傳送post獲取的，其中需要一個數據id,傳送後就可以獲得閱讀數

儲存

這裡就連線庫，建立表，新增資料

def import_mysql(data_list):
    db = pymysql.connect(host='localhost', user='root', password='123456', port=3306, db='spiders', charset='utf8')
    cursor = db.cursor()

    # 如果資料表已經存在使用execute()方法刪除表。
    cursor.execute("DROP TABLE IF EXISTS novel")

    sql = 'CREATE TABLE IF NOT EXISTS novel (' \
          'date VARCHAR(255) NOT NULL, ' \
          'title VARCHAR(255) NOT NULL, ' \
          'author VARCHAR(255) NOT NULL, ' \
          'read_count VARCHAR(255) NOT NULL,' \
          'content VARCHAR(10000) NOT NULL)'
    cursor.execute(sql)
    table = 'novel'
    for data in data_list:
        keys = ', '.join(data.keys())
        values = ', '.join(['%s'] * len(data))
        sql = 'INSERT INTO {table}({keys}) VALUES ({values})'.format(table=table, keys=keys, values=values)
        try:
            if cursor.execute(sql, tuple(data.values())):
                print('Successful import mysql')
                db.commit()
        except:
            print('Failed import mysql')
            db.rollback()
    db.close()

注意

我是把每一份資料處理好以後新增到一個字典，然後再把字典新增到一個列表裡面，這裡要注意把建立空字典放入迴圈裡，否則地址不會更新

    for data in goal.items():
        novel = {"date": data('.list_time').text(), "title": "", "author": "", "read_count": "", "content": ""}

        if novel["date"][:4] == "2020":		#這裡是為了只獲取2020年的文章
     ......

Python爬取學校文章並儲存mysql

Python爬取學校文章並儲存mysql python爬取學校文章並儲存mysql 問題簡介爬取福⼤要⽂（http://news.fzu.edu.cn/html/fdyw/）要求： 1.包含釋出⽇期，作者，標題，閱讀數以及正⽂。 2.可⾃動翻⻚。 3

python 爬取HTML內容並儲存到txt檔案內

技術標籤：python爬蟲正則表示式 # @UpdateTime : 2020-12-08 16:53 # @Author : wz # @File : Get_WebDetails

Python如何爬取51cto資料並存入MySQL

實驗環境 1.安裝Python 3.7 2.安裝requests,bs4，pymysql 模組實驗步驟1.安裝環境及模組

Python3直接爬取圖片URL並儲存示例

有時候我們會需要從網路上爬取一些圖片，來滿足我們形形色色直至不可描述的需求。

scrapy爬取快代理並儲存mongo資料庫

我們先分析下網頁這個網友的頁面規律很簡單 https://www.kuaidaili.com/free/inha/1 https://www.kuaidaili.com/free/inha/2

利用Python爬取疫情資料並使用視覺化工具展示

import requests, json from pyecharts.charts import Map, Page, Pie, Bar from pyecharts import options as opts

python爬取崗位資料並分析_爬取拉勾資料分析崗位

技術標籤：python爬取崗位資料並分析拉勾的反爬機制做得特別殘暴。 javascript加密和直接訪問json資料會給你返回偽裝的資料不說。最殘暴也是最簡單的，限制短時間內的多次訪問。只要爬蟲速度稍快點，就會要你

python爬取學校新聞

這是我做的第一個python爬蟲專案，在這裡與大家分享出來~ 目標網站：https://news.fzu.edu.cn/html/fdyw/

爬取網站圖片並儲存到本地

技術標籤：爬蟲爬蟲正則表示式爬取網站圖片並儲存到本地第一步：模擬瀏覽器發出請求，獲取網頁資料

Python爬取網站文章資料並存到資料庫

2. 資料庫表的準備（MySQL）1）確認要儲存的欄位：本文旨在獲取媽媽網網站文章的資料，因此需要文章標題（title）、文章連結（href）、文章內容（content）和內容圖片（imgs）2）建立資料庫表

python爬取CVPR論文標題、作者、pdf連結並儲存到MySQL資料庫

訪問外網，程式跑的時間會長一點，耐心等待！全部原始碼： # -*- coding = utf-8 -*-

Python爬取資料並寫入MySQL資料庫的例項

首先我們來爬取 http://html-color-codes.info/color-names/ 的一些資料。按 F12 或 ctrl+u 審查元素，結果如下:

Python爬取YY評級分數並儲存資料實現過程解析

前言當需要進行大規模查詢時（比如目前遇到的情形：查詢某個省所有發債企業的YY評級分數），人工查詢顯然太過費時，那就寫個爬蟲吧。

python 爬取百度文庫並下載(免費文章限定)

import requests import re import json import os session = requests.session() def fetch_url(url): return session.get(url).content.decode(\'gbk\')

使用Python爬取扇貝每日一句並儲存

技術標籤：Python小工具python爬蟲經驗分享windows xprequest 更進一步上一篇文章，在 windows xp 上使用 Python 獲取扇貝單詞每日一句中通過修改博Livathan`利維坦獲取愛詞霸每日一句的python檔案，成功輸出

Python爬取資料並儲存到csv檔案中

1、資料來源 2、Python程式碼 import requests from lxml import etree import csv url = \'http://211.103.175.222:5080/zentaopms/www/index.php?m=project&f=task&projectID=830\'

Python爬蟲實戰，requests模組，Python爬取網易雲歌曲並儲存本地

前言今天給大家簡單演示的爬取了一下某易雲歌曲的排行榜資訊,最後將音樂儲存到本地

python 爬取古詩文存入mysql資料庫的方法

使用正則提取資料，請求庫requests,看程式碼，在存入資料庫時，報錯ERROR 1054 (42S22): Unknown column ‘title\' in ‘field list\'。原來是我寫sql 有問題，sql = “insert into poem(title,author,content,creat

詞雲圖是怎麼做出來的？Python爬取B站視訊彈幕，並做成詞雲圖

前言今天介紹一個獲取B站資料的Python擴充套件庫-bilibili_api 可以獲取的資料包括：

Python爬取10000條“爆款劇”——《三十而已》熱評，並做視覺化

前言繼《隱祕的角落》後，又一部“爆款劇”——《三十而已》獲得了口碑收視雙豐收，王漫妮、顧佳、鍾曉芹三個女主角的故事線頻頻登上微博熱搜。該劇於2020年7月17日在東方衛視首播，並在騰訊視

Python爬取學校文章並儲存mysql