python3爬取資料至mysql的方法

阿新 • • 發佈：2020-01-09

本文例項為大家分享了python3爬取資料至mysql的具體程式碼，供大家參考，具體內容如下

直接貼程式碼

#!/usr/local/bin/python3.5 
# -*- coding:UTF-8 -*- 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re 
import datetime 
import random 
import pymysql 
 
connect = pymysql.connect(host='192.168.10.142',unix_socket='/tmp/mysql.sock',user='root',passwd='1234',db='scraping',charset='utf8') 
cursor = connect.cursor() 
cursor.execute('USE scraping') 
 
random.seed(datetime.datetime.now()) 
 
 
def store(title,content): 
 
  execute = cursor.execute("select * from pages WHERE `title` = %s",title) 
  if execute <= 0: 
    cursor.execute("insert into pages(`title`,`content`) VALUES(%s,%s)",(title,content)) 
    cursor.connection.commit() 
  else: 
    print('This content is already exist.') 
 
 
def get_links(acticle_url): 
  html = urlopen('http://en.wikipedia.org' + acticle_url) 
  soup = BeautifulSoup(html,'html.parser') 
  title = soup.h1.get_text() 
  content = soup.find('div',{'id': 'mw-content-text'}).find('p').get_text() 
  store(title,content) 
  return soup.find('div',{'id': 'bodyContent'}).findAll('a',href=re.compile("^(/wiki/)(.)*$")) 
 
links = get_links('') 
 
try: 
  while len(links) > 0: 
    newActicle = links[random.randint(0,len(links) - 1)].attrs['href'] 
    links = get_links(newActicle) 
    print(links) 
finally: 
  cursor.close() 
  connect.close()

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

python3爬取資料至mysql的方法

本文例項為大家分享了python3爬取資料至mysql的具體程式碼，供大家參考，具體內容如下

Python3實現的爬蟲爬取資料並存入mysql資料庫操作示例

本文例項講述了Python3實現的爬蟲爬取資料並存入mysql資料庫操作。分享給大家供大家參考，具體如下：

Python爬取資料並寫入MySQL資料庫的例項

首先我們來爬取 http://html-color-codes.info/color-names/ 的一些資料。按 F12 或 ctrl+u 審查元素，結果如下:

Python3讀取Excel資料存入MySQL的方法

Python是資料分析的強大利器。利用Python做資料分析，第一步就是學習如何讀取日常工作中產生各種excel報表並存入資料中，方便後續資料處理。

Python大資料之從網頁上爬取資料的方法詳解

本文例項講述了Python大資料之從網頁上爬取資料的方法。分享給大家供大家參考，具體如下：

puppeteer爬取資料 await與forEach的問題解決方法

技術標籤：廣泛學習爬蟲原文：https://www.jb51.cc/python/454296.html 在使用puppeteer爬取資料時，遇到了個報錯問題，才發現了這個forEach與await的問題。

c# Selenium爬取資料時防止webdriver封爬蟲的方法

背景大家在使用Selenium + Chromedriver爬取網站資訊的時候，以為這樣就能做到不被網站的反爬蟲機制發現。但是實際上很多引數和實際瀏覽器還是不一樣的，只要網站進行判斷處理，就能輕輕鬆鬆識別你是否使用了Selen

.Net Core匯入千萬級資料至Mysql資料庫的實現方法

最近在工作中，涉及到一個數據遷移功能，從一個txt文字檔案匯入到mysql功能。

getdata table表格資料join mysql方法

public function json_product_list($where,$order){ global $_M; $this->table = load::sys_class(\'tabledata\',\'new\');

python3爬取torrent種子連結例項

本文環境是python3,採用的是urllib,BeautifulSoup搭建。說下思路，這個專案分為管理器，url管理器，下載器，解析器，html檔案生產器。各司其職，在管理器進行排程。最後將解析到的種子連線生產html檔案顯示。當然也

C#簡單爬取資料（.NET使用HTML解析器NSoup和正則兩種方式匹配資料）

一、獲取資料想弄一個數據庫，由於需要一些人名，所以就去百度一下，然後發現了360圖書館中有很多人名

爬取資料分析——將豆瓣電影top250以詞雲的方式展現

根據爬取到的豆瓣top250電影資訊，根據一句話概述，首先使用jieba分詞工具進行分詞，再使用wordcloud進行詞雲展示

Pandas讀取或儲存資料至Mysql

兩種連結方式用DBAPI構建資料庫連結 import pymysql import pandas as pd con = pymysql.connect(host=\"127.0.0.1\",user=\"root\",password=\"password\",db=\"world\")

PHP爬取網頁的主要方法，你掌握了嗎

這篇文章講的是PHP爬取網頁的主要方法，主要流程就是獲取整個網頁，然後正則匹配（關鍵的）。

提升scrapy爬取資料的效率

方法： - 在配置檔案中進行相關的配置即可:(預設還有一套setting) #1 增加併發：

Python爬取資料並實現視覺化程式碼解析

這次主要是爬了京東上一雙鞋的相關評論：將資料儲存到excel中並可視化展示相應的資訊

python爬取資料並可視化展現

#將excel中的資料進行讀取分析 import openpyxl import matplotlib.pyplot as pit #資料統計用的

scrapy與selenium結合爬取資料(爬取動態網站)的示例程式碼

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。

通過Python的requests庫爬取資料並儲存為csv檔案

目錄一、選擇資料來源三、整體程式碼實現 4、總結同時推薦前面作者另外兩個系列文章：

使用Spark SQL JDBC同步資料至MySQL

Spark SQL JDBC 我們可以使用一個 JDBC 的連結來定義一個 Spark SQL 的表或者檢視，這裡用表來做示例：