Python如何爬取51cto資料並存入MySQL

阿新 • • 發佈：2020-08-28

實驗環境

1.安裝Python 3.7

2.安裝requests,bs4，pymysql 模組

實驗步驟1.安裝環境及模組

可參考https://www.jb51.net/article/194104.htm

2.編寫程式碼

# 51cto 部落格頁面資料插入mysql資料庫
# 匯入模組
import re
import bs4
import pymysql
import requests

# 連線資料庫賬號密碼
db = pymysql.connect(host='172.171.13.229',user='root',passwd='abc123',db='test',port=3306,charset='utf8')
# 獲取遊標
cursor = db.cursor()

def open_url(url):
  # 連線模擬網頁訪問
  headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) '
           'Chrome/57.0.2987.98 Safari/537.36'}
  res = requests.get(url,headers=headers)
  return res

# 爬取網頁內容
def find_text(res):
  soup = bs4.BeautifulSoup(res.text,'html.parser')

  # 部落格名
  titles = []
  targets = soup.find_all("a",class_="tit")
  for each in targets:
    each = each.text.strip()
    if "置頂" in each:
      each = each.split(' ')[0]
    titles.append(each)

  # 閱讀量
  reads = []
  read1 = soup.find_all("p",class_="read fl on")
  read2 = soup.find_all("p",class_="read fl")
  for each in read1:
    reads.append(each.text)
  for each in read2:
    reads.append(each.text)

  # 評論數
  comment = []
  targets = soup.find_all("p",class_='comment fl')
  for each in targets:
    comment.append(each.text)

  # 收藏
  collects = []
  targets = soup.find_all("p",class_='collect fl')
  for each in targets:
    collects.append(each.text)

   # 釋出時間
  dates=[]
  targets = soup.find_all("a",class_='time fl')
  for each in targets:
    each = each.text.split('：')[1]
    dates.append(each)

  # 插入sql 語句
  sql = """insert into blog (blog_title,read_number,comment_number,collect,dates)
  values( '%s','%s','%s');"""
  # 替換頁面 \xa0
  for titles,reads,comment,collects,dates in zip(titles,dates):
    reads = re.sub('\s','',reads)
    comment = re.sub('\s',comment)
    collects = re.sub('\s',collects)
    cursor.execute(sql % (titles,collects，dates))
    db.commit()
    pass

# 統計總頁數
def find_depth(res):
  soup = bs4.BeautifulSoup(res.text,'html.parser')
  depth = soup.find('li',class_='next').previous_sibling.previous_sibling.text
  return int(depth)

# 主函式
def main():
  host = "https://blog.51cto.com/13760351"
  res = open_url(host) # 開啟首頁連結
  depth = find_depth(res) # 獲取總頁數

  # 爬取其他頁面資訊
  for i in range(1,depth + 1):
    url = host + '/p' + str(i) # 完整連結
    res = open_url(url) # 開啟其他連結
    find_text(res) # 爬取資料

  # 關閉遊標
  cursor.close()
  # 關閉資料庫連線
  db.close()

if __name__ == '__main__':
  main()

3..MySQL建立對應的表

CREATE TABLE `blog` (
 `row_id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主鍵',`blog_title` varchar(52) DEFAULT NULL COMMENT '部落格標題',`read_number` varchar(26) DEFAULT NULL COMMENT '閱讀數量',`comment_number` varchar(16) DEFAULT NULL COMMENT '評論數量',`collect` varchar(16) DEFAULT NULL COMMENT '收藏數量',`dates` varchar(16) DEFAULT NULL COMMENT '釋出日期',PRIMARY KEY (`row_id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

Python如何爬取51cto資料並存入MySQL

4.執行程式碼，檢視效果:

Python如何爬取51cto資料並存入MySQL

改進版：

改進內容：

1.資料庫裡面的某些欄位只保留數字即可

2.預設爬取的內容都是字串，存放資料庫的某些欄位，最好改為整型，方便後面資料庫操作

1.程式碼如下：

import re
import bs4
import pymysql
import requests

# 連線資料庫
db = pymysql.connect(host='172.171.13.229','html.parser')

  # 部落格標題
  titles = []
  targets = soup.find_all("a",class_='collect fl')
  for each in targets:
    collects.append(each.text)

  # 釋出時間
  dates=[]
  targets = soup.find_all("a",class_='time fl')
  for each in targets:
    each = each.text.split('：')[1]
    dates.append(each)

  # 插入sql 語句
  sql = """insert into blogs (blog_title,reads)
    reads=int(re.sub('\D',"",reads)) #匹配數字，轉換為整型
    comment = re.sub('\s',comment)
    comment = int(re.sub('\D',comment)) #匹配數字，轉換為整型
    collects = re.sub('\s',collects)
    collects = int(re.sub('\D',collects)) #匹配數字，轉換為整型
    dates = re.sub('\s',dates)
    cursor.execute(sql % (titles,dates))
    db.commit()
    pass

# 統計總頁數
def find_depth(res):
  soup = bs4.BeautifulSoup(res.text,depth + 1):
    url = host + '/p' + str(i) # 完整連結
    res = open_url(url) # 開啟其他連結
    find_text(res) # 爬取資料

  # 關閉遊標
  cursor.close()
  # 關閉資料庫連線
  db.close()

#主程式入口
if __name__ == '__main__':
  main()

2.建立對應表

CREATE TABLE `blogs` (
 `row_id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主鍵',`read_number` int(26) DEFAULT NULL COMMENT '閱讀數量',`comment_number` int(16) DEFAULT NULL COMMENT '評論數量',`collect` int(16) DEFAULT NULL COMMENT '收藏數量',PRIMARY KEY (`row_id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

3.執行程式碼，驗證

Python如何爬取51cto資料並存入MySQL

升級版

為了能讓小白就可以使用這個程式，可以把這個專案打包成exe格式的檔案，讓其他人，使用電腦就可以執行程式碼，這樣非常方便！

1.改進程式碼：

#末尾修改為：
if __name__ == '__main__':
  main()
  print("\n\t\t所有資料已成功存放資料庫！!! \n")
  time.sleep(5)

2.安裝打包模組pyinstaller(cmd安裝）

pip install pyinstaller -i https://pypi.tuna.tsinghua.edu.cn/simple/

3.Python程式碼打包

1.切換到需要打包程式碼的路徑下面

2.在cmd視窗執行 pyinstaller -F test03.py （test03為專案名稱）

Python如何爬取51cto資料並存入MySQL

4.檢視exe包

在打包後會出現dist目錄，打好包就在這個目錄裡面

Python如何爬取51cto資料並存入MySQL

5.執行exe包，檢視效果

Python如何爬取51cto資料並存入MySQL

檢查資料庫

Python如何爬取51cto資料並存入MySQL

總結：

1.這一篇部落格，是在上一篇的基礎上改進的，步驟是先爬取首頁的資訊，再爬取其他頁面資訊，最後在改進細節，打包exe檔案

2.我們爬取網頁資料大多數還是存放到資料庫的，所以這種方法很實用。

3.其實在此部落格的基礎上還是可以改進的，重要的是掌握方法即可。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python如何爬取51cto資料並存入MySQL

實驗環境 1.安裝Python 3.7 2.安裝requests,bs4，pymysql 模組實驗步驟1.安裝環境及模組

利用Python爬取疫情資料並使用視覺化工具展示

import requests, json from pyecharts.charts import Map, Page, Pie, Bar from pyecharts import options as opts

Python爬取學校文章並儲存mysql

Python爬取學校文章並儲存mysql python爬取學校文章並儲存mysql 問題簡介爬取福⼤要⽂（http://news.fzu.edu.cn/html/fdyw/）要求： 1.包含釋出⽇期，作者，標題，閱讀數以及正⽂。 2.可⾃動翻⻚。 3

python爬取崗位資料並分析_爬取拉勾資料分析崗位

技術標籤：python爬取崗位資料並分析拉勾的反爬機制做得特別殘暴。 javascript加密和直接訪問json資料會給你返回偽裝的資料不說。最殘暴也是最簡單的，限制短時間內的多次訪問。只要爬蟲速度稍快點，就會要你

Python3實現的爬蟲爬取資料並存入mysql資料庫操作示例

本文例項講述了Python3實現的爬蟲爬取資料並存入mysql資料庫操作。分享給大家供大家參考，具體如下：

爬蟲2-python爬取的資料存入mysql**

也可以存入hive、HDFS，這裡選擇存在mysql。一、安裝mysql（python在pyspark一節已配置好）

python爬蟲爬取網頁資料並解析資料

1.網路爬蟲的基本概念網路爬蟲（又稱網路蜘蛛，機器人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

python 爬取疫情資料的原始碼

疫情資料程式原始碼 // An highlighted block import requests import json class epidemic_data(): def __init__(self,province):

爬取素材庫直接存入mysql資料庫

爬取素材庫。直接存入mysql資料庫。包含html原始碼直接存入資料庫需要的轉義函式。

基於Python爬取51cto部落格頁面資訊過程解析

介紹提到爬蟲，網際網路的朋友應該都不陌生，現在使用Python爬取網站資料是非常常見的手段，好多朋友都是爬取豆瓣資訊為案例，我不想重複，就使用了爬取51cto部落格網站資訊為案例，這裡以我的部落格頁面為教程，編

基於Python爬取股票資料過程詳解

基本環境配置 python 3.6 pycharm requests csv time 相關模組pip安裝即可目標網頁分析網頁

Python爬取豆瓣資料實現過程解析

程式碼如下 from bs4 import BeautifulSoup #網頁解析，獲取資料 import sys #正則表示式，進行文字匹配

實戰｜手把手教你用Python爬取儲存資料，還能自動在Excel中視覺化！

大家好，在之前我們講過如何用Python構建一個帶有GUI的爬蟲小程式，很多本文將迎合熱點，延續上次的NBA爬蟲GUI，探討如何爬取虎撲NBA官網資料。並且將資料寫入Excel中同時自動生成折線圖，主要有以下幾個步驟

python爬取天氣資料的例項詳解

就在前幾天還是二十多度的舒適溫度，今天一下子就變成了個位數，小編已經感受到冬天寒風的無情了。之前對獲取天氣都是資料上的蒐集，做成了一個數據表後，對溫度變化的感知並不直觀。那麼，我們能不能用python中的方

關於Python爬取天氣資料的例項詳解內容

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

使用Python爬取Json資料的示例程式碼

一年一度的雙十一即將來臨，臨時接到了一個任務：統計某品牌資料銀行中自己品牌分別在2017和2018的10月20日至10月31日之間不同時間段的AIPL（“認知”(Aware)、“興趣”(Interest)、“購買”(Purchase)、“忠誠”(Lo

python 爬取HTML內容並儲存到txt檔案內

技術標籤：python爬蟲正則表示式 # @UpdateTime : 2020-12-08 16:53 # @Author : wz # @File : Get_WebDetails

Python爬取資料並寫入MySQL資料庫的例項

首先我們來爬取 http://html-color-codes.info/color-names/ 的一些資料。按 F12 或 ctrl+u 審查元素，結果如下:

python爬蟲爬取國家統計局2009年到2020年，統計用區劃和城鄉劃分程式碼（省市區/縣三級）並存入mysql資料庫

國家統計局->統計標準網址：http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/ 流程對統計標準的網站進行分層分級爬取

python 爬取古詩文存入mysql資料庫的方法

使用正則提取資料，請求庫requests,看程式碼，在存入資料庫時，報錯ERROR 1054 (42S22): Unknown column ‘title\' in ‘field list\'。原來是我寫sql 有問題，sql = “insert into poem(title,author,content,creat

Python如何爬取51cto資料並存入MySQL

相關推薦