python3爬蟲豆瓣top250電影（並儲存到mysql資料庫）

阿新 • • 發佈：2019-01-23

所用到的模組（需要提前安裝好）：

requests、BeautifulSoup、lxml、mysql.connector（或者pymysql也可以，如果不想插入到資料庫，只需要將裡邊相關的程式碼刪除）

（程式碼下邊將貼出本文beautifulsoup的使用）

程式碼：

import requests
from bs4 import BeautifulSoup
import mysql.connector


def get_pages_link():
    # 插入到資料庫
    conn = mysql.connector.connect(user='root', password='root', database='test')
    cursor = conn.cursor()

    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36',
        'Connection': 'keep-alive'
    }

    for item in range(0, 250, 25):
        url = "https://movie.douban.com/top250?start={}".format(item)
        web_data = requests.get(url, headers=header)
        soup = BeautifulSoup(web_data.content, 'lxml')
        for movie in soup.select('#wrapper li'):

            #href = movie.select('.hd > a')[0]  # 連結
            href=movie.find('a')["href"]
            name = movie.select('.hd > a > span')[0].text  # 片名
            star = movie.select('.rating_num')[0].text  # 評分
            people = movie.select('.star > span')[3].text  # 評價人數
            try:
                quote = movie.select('.inq')[0].text
            except:
                print('沒有quote哦')
                quote = None
            data = {
                # 'url': href,
                '評分': star,
                '片名': name,
                '名言': quote,
                '評價人數': people
            }
            sql = 'insert into doubantop250(score,name,quote,people) values (%f,"%s","%s","%s")' % (
                float(star), name, quote, people)
            cursor.execute(sql)
            conn.commit()

            print(data)
            # print(movie)
        print('\n' + '-' * 50 + '\n')
    # 關閉資料庫
    cursor.close()
    conn.close


if __name__ == '__main__':
    get_pages_link()

因為這個爬蟲是跟著微信裡的一篇文章學的，所以設定為轉載~

裡邊的加入到mysql資料庫是自己邊寫邊學的，然而下邊這行程式碼困擾了我一個上午！

sql = 'insert into doubantop250(score,name,quote,people) values (%f,%s,%s,%s)' % (
    float(star), name, quote, people)

本來這事很正常的插入資料庫的操作，但一直報錯，因為字串是漢字型別的，自己寫小demo是可以插入字母、數字的，但是一到漢字這就報錯，，後來查了好多內容才知%s需要加引號。。。。

sql = 'insert into doubantop250(score,name,quote,people) values (%f,"%s","%s","%s")' % (
                float(star), name, quote, people)

最後，因為自己在學python爬蟲，想學習python爬蟲的可以加群678458826，互相探討學習，進步！

----------------------------------------------------------------我是分割線----------------------------------------------------------------------------

下邊講一下從程式碼裡學到的東西：

soup = BeautifulSoup(web_data.content, 'lxml')

將html內容解析為soup文件

soup.select('#wrapper li')

獲取文件裡邊id是wrapper，標籤為li的所有內容

href=movie.find('a')["href"]

獲取標籤為 a 裡邊的 href（對應的html裡的：<a href="https://movie.douban.com/subject/1292052/" class="">）

 name = movie.select('.hd > a > span')[0].text

獲取標籤為a 裡標籤為span的內容，裡邊有三個span，name是對應的第一個，所以下標為0

更多關於beautifulsoup的使用可以檢視對應的官方文件

python3爬蟲豆瓣top250電影（並儲存到mysql資料庫）

所用到的模組（需要提前安裝好）： requests、BeautifulSoup、lxml、mysql.connector（或者pymysql也可以，如果不想插入到資料庫，只需要將裡邊相關的程式碼刪除）（程式碼下邊將貼出本文beautifulsoup的使用）程式碼

python3爬蟲豆瓣top250圖書（並儲存到mysql資料庫）

參考上篇文章附上程式碼： import requests from bs4 import BeautifulSoup import mysql.connector def get_pages_link(): # 插入到資料庫 conn = mysql

python scrapy框架爬取豆瓣top250電影篇一儲存資料到mongogdb | mysql中

存到mongodb中環境 windows7 mongodb4.0 mongodb安裝教程設定具體引數在管道里面寫具體引數開啟settings 設定引數測試開始–結果程式碼 import pymongo from douban.

ASP.NET MVC檔案上傳下載Demo（檔案儲存在資料庫）

ASP.NET MVC檔案上傳下載Demo（檔案儲存在SQL Server資料庫中）如圖：後期考慮到安全問題，可以用MD5加密，生成加密資料庫連線字串，替換Web.config檔案中字串即可，如圖：如果

封裝類之MYSQLHelper（C#連線MySql資料庫）

using System; using System.Collections; using System.Configuration; using MySql.Data; using MySql.Data.MySqlClient; using System.Da

java版超市管理系統。swing~（java連線mysql資料庫）

/* * 完成於2016.12.14 * 知識點:（1）java與mysql連線語句的掌握 * （2）swing窗體的構建 * (3)在people類裡運用了列表框。(ps:還有一個小問題沒有解決。那就是點選列表框響應兩次。網上的方法不知道怎麼運用。希望有大神來教教我。提前謝謝啦~

Python3爬蟲豆瓣電影TOP250將電影名寫入到EXCEL

大家好，我是你們的老朋友澤哥，最近在學習Python3.6，於是興起寫了個小小的爬蟲附上截圖！我們要獲得TOP250對應的電影名，開啟F12對HTML報文進行解讀電影名對應的HTML程式碼如下： <span class="title">肖申克的

python 爬蟲儲存豆瓣TOP250電影海報及修改名稱

1. spider程式碼：這裡注意找title和star，以及pic時xpath不同。前兩者是在info下，後者是在pic下。for迴圈中按item尋找，每次找到一個item（電影）的title、star和圖片資訊，每次呼叫一次yield生成器，在pipeline裡面進行處

Python爬蟲之多線程下載豆瓣Top250電影圖片

process current ocs code roc 輸出 wait div 允許爬蟲項目介紹 ??本次爬蟲項目將爬取豆瓣Top250電影的圖片，其網址為：https://movie.douban.com/top250，具體頁面如下圖所示： ??本次爬蟲項目將分別

python3爬蟲連結+表格+圖片（本地+csv+mongodb儲存）

# -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup import re import csv import time from pymongo import MongoClient client = Mon

python3爬蟲連結+表格+圖片（本地+csv儲存）

# -*- coding: utf-8 -*- import urllib.request import http.cookiejar from bs4 import BeautifulSoup import requests import csv import time import re i

Python3爬蟲入門實戰系列（二）爬取貓眼電影排行榜

在進行本節實戰之前，希望您對requests庫以及正則表示式有所瞭解。執行平臺：windows Python版本： Python3.x 一、依賴庫的安裝在本節實戰之前，請確保已經正確安裝了requests庫 requests庫的安裝 pip3 instal

Python爬蟲實戰：抓取並儲存百度雲資源（附程式碼）

尋找並分析百度雲的轉存api 首先你得有一個百度雲盤的賬號，然後登入，用瀏覽器（這裡用火狐瀏覽器做示範）開啟一個分享連結。F12開啟控制檯進行抓包。手動進行轉存操作：全選檔案->儲存到網盤->選擇路徑->確定。點選【確定】前建議先清空一下抓包記錄，這樣可以精確定位到轉存的api，這就是

python爬蟲--爬取豆瓣top250電影名

python爬蟲--爬取豆瓣top250電影名關於模擬瀏覽器登入的header，可以在相應網站按F12調取出編輯器，點選netwook，如下：以便於不會被網站反爬蟲拒絕。 1 import requests 2 from bs4 import BeautifulSoup

python scrapy框架爬取豆瓣top250電影篇一明確目標&&爬蟲編寫

1.明確目標 1.1在url上找到要爬取的資訊 1.2.確定了資訊,編寫items檔案 class DoubanItem(scrapy.Item): &nb

「Python3爬蟲」貓眼電影爬蟲（破解字符集反爬）！

一、頁面分析首先開啟貓眼電影，然後點選一個正在熱播的電影（比如：毒液）。開啟開發者工具，點選左上角的箭頭，然後用滑鼠點選網頁上的票價，可以看到原始碼中顯示的不是數字，而是某些根本看不懂的字元，這是因為使用了font-face定義字符集，並通過unicode去對映展示，所以我們在網頁上看

python3爬蟲爬取圖片，爬取新聞網站文章並儲存到資料庫

2017年9月16日零基礎入門Python，第二天就給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2

2-6-1 應用案例：爬取豆瓣 TOP250 電影資訊並存儲（版本：py3）——學習筆記

爬取電影名稱、連結並寫入檔案 import urllib.request as urlrequest from bs4 import BeautifulSoup import time #休息時間 import random #為了時間隨機 top250_url="htt

Forward團隊-爬蟲豆瓣top250項目-需求分析

利用進行程序 ref war 參考資料豆瓣api per 運用一、　　需求：1、爬取豆瓣電影top250. 　　　　　2、獲取電影名稱,排名,分數,簡介,導演,演員。　　　　　3、將爬取到的數據保存，以便隨時查看。　　　　　3、可以將獲取到的數據展示給用戶。

Forward團隊-爬蟲豆瓣top250項目-團隊編程項目開發環境搭建過程

es2017 搭建項目開發需要爬蟲編程搭建過程 pycha 開發需要python環境開發軟件、開發環境安裝： python2.7.5：安裝pycharm（社區版）： Forward團隊-爬蟲豆瓣top250項目-團隊編程項目

python3爬蟲豆瓣top250電影（並儲存到mysql資料庫）

相關推薦