6Python3實戰入門資料庫篇003---把爬取到的資料存到資料庫，帶資料庫去重功能

阿新 • • 發佈：2018-12-03

這是python3實戰入門系列的第三篇文章，要學習這一篇需要了解前兩篇，要不學起來比較費勁

下面來正式開始把我們第一節爬取到的新聞資料儲存到mysql資料中

一，首頁我們需要連線資料庫

通過定義一個MySQLCommand類來配置資料庫連線引數，並定義一個connectMysql方法連線資料庫

# -*- coding: utf-8 -*-
# 作者微信：2501902696
import pymysql
# 用來操作資料庫的類
class MySQLCommand(object):
    # 類的初始化
    def __init__(self):
        self.host = 'localhost'
        self.port = 3306  # 埠號
        self.user = 'root'  # 使用者名稱
        self.password = ""  # 密碼
        self.db = "home"  # 庫
        self.table = "home_list"  # 表

    # 連結資料庫
    def connectMysql(self):
        try:
            self.conn = pymysql.connect(host=self.host, port=self.port, user=self.user,
                                        passwd=self.password, db=self.db, charset='utf8')
            self.cursor = self.conn.cursor()
        except:
            print('connect mysql error.')

二，連線完資料庫後我們需要插入資料了

插入資料之前我們有兩個問題

1，重複的資料如何去重
2，新資料的主鍵id應該從哪裡開始
針對上面的兩個問題我貼出一部分程式碼來看解決思路

# 插入資料，插入之前先查詢是否存在，如果存在就不再插入
    def insertData(self, my_dict):
        table = "home_list"  # 要操作的表格
        # 注意，這裡查詢的sql語句url=' %s '中%s的前後要有空格
        sqlExit = "SELECT url FROM home_list  WHERE url = ' %s '" % (my_dict['url'])
        res = self.cursor.execute(sqlExit)
        if res:  # res為查詢到的資料條數如果大於0就代表資料已經存在
            print("資料已存在", res)
            return 0
        # 資料不存在才執行下面的插入操作
        try:
            cols = ', '.join(my_dict.keys())#用，分割
            values = '"," '.join(my_dict.values())
            sql = "INSERT INTO home_list (%s) VALUES (%s)" % (cols, '"' + values + '"')
            #拼裝後的sql如下
            # INSERT INTO home_list (img_path, url, id, title) VALUES ("https://img.huxiucdn.com.jpg"," https://www.huxiu.com90.html"," 12"," ")
            try:
                result = self.cursor.execute(sql)
                insert_id = self.conn.insert_id()  # 插入成功後返回的id
                self.conn.commit()
                # 判斷是否執行成功
                if result:
                    print("插入成功", insert_id)
                    return insert_id + 1
            except pymysql.Error as e:
                # 發生錯誤時回滾
                self.conn.rollback()
                # 主鍵唯一，無法插入
                if "key 'PRIMARY'" in e.args[1]:
                    print("資料已存在，未插入資料")
                else:
                    print("插入資料失敗，原因 %d: %s" % (e.args[0], e.args[1]))
        except pymysql.Error as e:
            print("資料庫錯誤，原因%d: %s" % (e.args[0], e.args[1]))

通過上面程式碼我們來看如何去重

我們在每次插入之前需要查詢下資料是否已經存在，如果存在就不在插入，我們的home_list表格的欄位有 id，title,url,img_path。通過分析我們抓取到的資料titlehe和img_path欄位都可能為空，所以這裡我們通過url欄位來去重。知道去重原理以後再去讀上面的程式碼，你應該能容易理解了

三，查詢資料庫中最後一條資料的id值，來確定我們新資料id的開始值

通過下面的getLastId函式來獲取home_list表裡的最後一條資料的id值

# 查詢最後一條資料的id值
    def getLastId(self):
        sql = "SELECT max(id) FROM " + self.table
        try:
            self.cursor.execute(sql)
            row = self.cursor.fetchone()  # 獲取查詢到的第一條資料
            if row[0]:
                return row[0]  # 返回最後一條資料的id
            else:
                return 0  # 如果表格為空就返回0
        except:
            print(sql + ' execute failed.')

下面貼出MySQLCommand資料庫操作類的完整程式碼

# -*- coding: utf-8 -*-
# 作者微信：2501902696
import pymysql
# 用來操作資料庫的類
class MySQLCommand(object):
    # 類的初始化
    def __init__(self):
        self.host = 'localhost'
        self.port = 3306  # 埠號
        self.user = 'root'  # 使用者名稱
        self.password = ""  # 密碼
        self.db = "home"  # 庫
        self.table = "home_list"  # 表

    # 連結資料庫
    def connectMysql(self):
        try:
            self.conn = pymysql.connect(host=self.host, port=self.port, user=self.user,
                                        passwd=self.password, db=self.db, charset='utf8')
            self.cursor = self.conn.cursor()
        except:
            print('connect mysql error.')

    # 插入資料，插入之前先查詢是否存在，如果存在就不再插入
    def insertData(self, my_dict):
        table = "home_list"  # 要操作的表格
        # 注意，這裡查詢的sql語句url=' %s '中%s的前後要有空格
        sqlExit = "SELECT url FROM home_list  WHERE url = ' %s '" % (my_dict['url'])
        res = self.cursor.execute(sqlExit)
        if res:  # res為查詢到的資料條數如果大於0就代表資料已經存在
            print("資料已存在", res)
            return 0
        # 資料不存在才執行下面的插入操作
        try:
            cols = ', '.join(my_dict.keys())#用，分割
            values = '"," '.join(my_dict.values())
            sql = "INSERT INTO home_list (%s) VALUES (%s)" % (cols, '"' + values + '"')
            #拼裝後的sql如下
            # INSERT INTO home_list (img_path, url, id, title) VALUES ("https://img.huxiucdn.com.jpg"," https://www.huxiu.com90.html"," 12"," ")
            try:
                result = self.cursor.execute(sql)
                insert_id = self.conn.insert_id()  # 插入成功後返回的id
                self.conn.commit()
                # 判斷是否執行成功
                if result:
                    print("插入成功", insert_id)
                    return insert_id + 1
            except pymysql.Error as e:
                # 發生錯誤時回滾
                self.conn.rollback()
                # 主鍵唯一，無法插入
                if "key 'PRIMARY'" in e.args[1]:
                    print("資料已存在，未插入資料")
                else:
                    print("插入資料失敗，原因 %d: %s" % (e.args[0], e.args[1]))
        except pymysql.Error as e:
            print("資料庫錯誤，原因%d: %s" % (e.args[0], e.args[1]))

    # 查詢最後一條資料的id值
    def getLastId(self):
        sql = "SELECT max(id) FROM " + self.table
        try:
            self.cursor.execute(sql)
            row = self.cursor.fetchone()  # 獲取查詢到的第一條資料
            if row[0]:
                return row[0]  # 返回最後一條資料的id
            else:
                return 0  # 如果表格為空就返回0
        except:
            print(sql + ' execute failed.')

    def closeMysql(self):
        self.cursor.close()
        self.conn.close()  # 建立資料庫操作類的例項

再貼出把爬蟲爬取資料插入到資料庫的程式碼

# -*- coding: utf-8 -*-
# 作者微信：2501902696
from bs4 import BeautifulSoup
from urllib import request
import chardet

from db.MySQLCommand import MySQLCommand

url = "https://www.huxiu.com"
response = request.urlopen(url)
html = response.read()
charset = chardet.detect(html)
html = html.decode(str(charset["encoding"]))  # 設定抓取到的html的編碼方式

# 使用剖析器為html.parser
soup = BeautifulSoup(html, 'html.parser')
# 獲取到每一個class=hot-article-img的a節點
allList = soup.select('.hot-article-img')

# 連線資料庫
mysqlCommand = MySQLCommand()
mysqlCommand.connectMysql()
#這裡每次查詢資料庫中最後一條資料的id，新加的資料每成功插入一條id+1
dataCount = int(mysqlCommand.getLastId()) + 1
for news in allList:  # 遍歷列表，獲取有效資訊
    aaa = news.select('a')
    # 只選擇長度大於0的結果
    if len(aaa) > 0:
        # 文章連結
        try:  # 如果丟擲異常就代表為空
            href = url + aaa[0]['href']
        except Exception:
            href = ''
        # 文章圖片url
        try:
            imgUrl = aaa[0].select('img')[0]['src']
        except Exception:
            imgUrl = ""
        # 新聞標題
        try:
            title = aaa[0]['title']
        except Exception:
            title = ""

        #把爬取到的每條資料組合成一個字典用於資料庫資料的插入
        news_dict = {
            "id": str(dataCount),
            "title": title,
            "url": href,
            "img_path": imgUrl
        }
        try:
            # 插入資料，如果已經存在就不在重複插入
            res = mysqlCommand.insertData(news_dict)
            if res:
                dataCount=res
        except Exception as e:
            print("插入資料失敗", str(e))#輸出插入失敗的報錯語句
mysqlCommand.closeMysql()  # 最後一定要要把資料關閉
dataCount=0

如果對上面程式碼不是很瞭解可以到我的第一節文章去看下
python3實戰入門python爬蟲篇---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞

到此我們的python3爬蟲+python3資料庫篇就完事了，看下操作效果圖

GIF.gif

作者：java小石頭
連結：https://www.jianshu.com/p/5ba719a7d8cb
來源：簡書
簡書著作權歸作者所有，任何形式的轉載都請聯絡作者獲得授權並註明出處。

6Python3實戰入門資料庫篇003---把爬取到的資料存到資料庫，帶資料庫去重功能

這是python3實戰入門系列的第三篇文章，要學習這一篇需要了解前兩篇，要不學起來比較費勁 python3實戰入門python爬蟲篇001---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞 python3操作資料庫002 藉助pycharm快速連線並操作mysql資

Python爬蟲-利用百度地圖API介面爬取資料並儲存至MySQL資料庫

首先，我這裡有一份相關城市以及該城市的公園數量的txt檔案：其次，利用百度地圖API提供的介面爬取城市公園的相關資訊。所利用的API介面有兩個： 1、http://api.map.baidu.com/place/v2/search?q=公園&

[python爬蟲小實戰2]根據使用者輸入關鍵詞爬取今日頭條圖集，並批量下載圖片

這算是比較貼近於實際生活的爬蟲了，根據使用者輸入的關鍵字批量下載今日頭條相關圖集圖片，，核心用到了urllib.request.urlretrieve()這個方法，然後百度了一下進度條怎麼玩，直接把程式碼加上去了，沒毛病，感覺程式碼有些複雜，其實理論上一層網頁可

爬蟲實戰：從鏈家網爬取資料

學習python已經很久了，從各個大牛的技術部落格中獲益良多。現在也想把自己的小小收穫公開一下，以方便大家學習python，讓python更加普及的應用。下面我準備寫一個爬蟲例項：從鏈家網爬取福田區二手房的資料。環境： win10專業版 python3.6（需

Scrapy-redis增量爬取以及Simhash相似文件的去重

最近在實習，第一個任務就是從各大入口網站抓取新聞，爬蟲本身不是一個很難的事情，用scrapy框架很容易完成(關於scrapy的具體用法可以參考我之前的一篇部落格http://blog.csdn.net/john_xyz/article/details/78157

Python爬蟲【實戰篇】百度貼吧爬取頁面存到本地

先上程式碼 import requests class TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = " htt

7-13爬蟲入門之BeautifulSoup對網頁爬取內容的解析

obj logs utf 進行 pan 審查 pri 全球網頁爬取通過beautifulsoup對json爬取的文件進行元素審查，獲取是否含有p標簽 # -*- coding:utf-8 -*- from lxml import html import request

第八篇編寫spider爬取jobbole的所有文章

strip 狀態第一個 lds ont style cnblogs pycha 目標通過scrapy的Request和parse，我們能很容易的爬取所有列表頁的文章信息。 PS:parse.urljoin（response.url，post_url）的方法有個好處,

將豆瓣排名前250爬取資料通過sqlite3存入資料庫

#爬取豆瓣top250電影，並儲存到資料庫 import requests from bs4 import BeautifulSoup import sqlite3 def get_html(web_url): user_agent = 'Mozilla/5.0 (Linux; Andro

scrapy-redis例項，分佈爬蟲爬取騰訊新聞，儲存在資料庫中

本篇文章為scrapy-redis的例項應用，原始碼已經上傳到github: https://github.com/Voccoo/NewSpider 使用到了： python 3.x redis scrapy-redis pymysql Redis-Desktop-Manage

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

crawler學習篇（jar爬取）

新建maven專案匯入依賴的jar包 <dependencies>  <dependency> <groupId>org.apache.httpcomponents</grou

如何使用Python爬取資料？看完這篇文章你就懂了！

前段時間小編髮了一篇有關於Python資料型別的文章，由於只是介紹了資料型別，我覺得遠遠不夠，所以呢我現在寫一篇用Python爬取資料的文章來補充。首先我會介紹如何使用scrapy抓取二手房資料，然後我會將抓下來的資料進行了一些簡單的分析和視覺化。最後奉上資料，感興趣的朋友可

【第二篇】把學習做成輕鬆的事，父母如何提升孩子的學習成績

注：本文大多來源於《好媽媽勝過好老師》讀後總結，還有其他育兒讀物總結及生活感悟。一、如何讀書識字 1、不需要刻意去強迫孩子認字學習一個個的字是枯燥無聊的，只有在閱讀中學字才是有趣的。孤立的學一個個的字詞，是沒有意義的，是低效的學習。 2、在讀故事中識字給孩子反覆的讀故事，先家長

爬取西刺ip的插入資料庫相關問題

今晚解決了前幾天爬取西刺ip網不能插入資料庫的問題，成功爬取並插入資料庫的程式碼如下# encoding: utf-8 import re import requests from scrapy.selector import Selector import MySQLdb

[python爬蟲] Selenium爬取內容並存儲至MySQL資料庫

前面我通過一篇文章講述瞭如何爬取CSDN的部落格摘要等資訊。通常，在使用Selenium爬蟲爬取資料後，需要儲存在TXT文字中，但是這是很難進行資料處理和資料分析的。這篇文章主要講述通過Selenium爬取我的個人部落格資訊，然後儲存在資料庫MySQL中，以便

三個Python爬蟲版本，帶你以各種方式爬取校花網，輕鬆入門爬蟲

爬蟲是什麼？進群進群：943752371可以獲取Python各類入門學習資料！這是我的微信公眾號【Python程式設計之家】各位大佬用空可以關注下，每天更新Python學習方法，感謝！如果我們把網際網路比作一張大的蜘蛛網，資料便是存放

【爬蟲入門】【非同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 # 多執行緒/多程序：提高程式碼的執行效率，放在爬蟲中就是提高爬取效率。因為可以使用多個程序同時對多個頁面發起請求。 # 之前的糗事百科/51job同步執行：按照先後順序一個一個執行。 from urllib.request import urlopen from ur

【爬蟲入門】【同步】爬取人人車車輛資訊1.0

# 爬取人人車車車輛資訊。 from urllib.request import urlopen from urllib.error import HTTPError import re, sqlite3 class RRCSpider(object): """ 人人車爬蟲類

WebMagic爬蟲入門教程（三）爬取汽車之家的例項-品牌車系車型結構等

本文使用WebMagic爬取汽車之家的品牌車系車型結構價格能源產地國別等；java程式碼備註，只是根據url變化爬取的，沒有使用爬取script頁面具體的資料，也有反爬機制，知識簡單爬取html標籤爬取的網頁：需要配置pom.xml <!-

6Python3實戰入門資料庫篇003---把爬取到的資料存到資料庫，帶資料庫去重功能

一，首頁我們需要連線資料庫

二，連線完資料庫後我們需要插入資料了

三，查詢資料庫中最後一條資料的id值，來確定我們新資料id的開始值

下面貼出MySQLCommand資料庫操作類的完整程式碼

再貼出把爬蟲爬取資料插入到資料庫的程式碼

相關推薦