python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

阿新 • • 發佈：2019-01-02

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式，並將爬取到的資料（排名、電影名和電影海報網址）存入MySQL資料庫中。下面是完整程式碼：

Ps：在執行程式前，先在MySQL中建立一個數據庫"pachong"。

import pymysql
import requests
import re


#獲取資源並下載
def resp(listURL):
    #連線資料庫
    conn = pymysql.connect(
        host = '127.0.0.1',
        port = 3306,
        user = 'root',
        password = '******',  #資料庫密碼請根據自身實際密碼輸入
        database = 'pachong', 
        charset = 'utf8'
    )

    #建立資料庫遊標
    cursor = conn.cursor()

    #建立列表t_movieTOP250（執行sql語句）
    cursor.execute('create table t_movieTOP250(id INT PRIMARY KEY 												auto_increment NOT NULL ,movieName VARCHAR(20) NOT NULL 									,pictrue_address VARCHAR(100))')

    try:
        # 爬取資料
        for urlPath in listURL:
            # 獲取網頁原始碼
            response = requests.get(urlPath)
            html = response.text

            # 正則表示式
            namePat = r'alt="(.*?)" src='
            imgPat = r'src="(.*?)" class='

            # 匹配正則（排名【用資料庫中id代替，自動生成及排序】、電影名、電影海報（圖片地址））
            res2 = re.compile(namePat)
            res3 = re.compile(imgPat)
            textList2 = res2.findall(html)
            textList3 = res3.findall(html)

            # 遍歷列表中元素,並將資料存入資料庫
            for i in range(len(textList3)):
                cursor.execute('insert into t_movieTOP250(movieName,pictrue_address) 									VALUES("%s","%s")' % (textList2[i],textList3[i]))

        #從遊標中獲取結果
        cursor.fetchall()

        #提交結果
        conn.commit()
        print("結果已提交")

    except Exception as e:
        #資料回滾
        conn.rollback()
        print("資料已回滾")

    #關閉資料庫
    conn.close()

#top250所有網頁網址
def page(url):
    urlList = []
    for i in range(10):
        num = str(25*i)
        pagePat = r'?start=' + num + '&filter='
        urL = url+pagePat
        urlList.append(urL)
    return urlList


if __name__ == '__main__':
    url = r"https://movie.douban.com/top250"
    listURL = page(url)
    resp(listURL)

結果如下圖：

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式，並將爬取到的資料（排名、電影名和電影海報網址）存入MySQL資料庫中。下面是完整程式碼：Ps：在執行程式前，先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

[Python/爬蟲]利用xpath爬取豆瓣電影top250

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import r

python抓取豆瓣電影top250資訊

1、本博文中程式碼是轉載內容，原文章地址如下： https://blog.csdn.net/submit66/article/details/78631342?utm_source=blogxgwz1 2、只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼 3、本

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

初學python：用簡單的爬蟲爬取豆瓣電影TOP250的排名

一開始接觸到python語言，對它沒什麼瞭解。唯一知道的就是它可以用來寫爬蟲，去爬取網路上的資源。爬蟲是一種按照一定的規則，自動地抓取網路上的資訊的程式或者指令碼。所以當我對python有一定的瞭解後，我就想個寫個爬蟲來試試手。於是就有了這篇文章，用簡單的爬蟲爬取豆瓣電影TO

爬蟲]利用xpath爬取豆瓣電影top250（轉）

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import re import requests import lxml.html url

使用python爬蟲抓取頁面之後，將頁面儲存到Mysql資料庫中

#首先抓取html頁面內容，為了安全起見，有關url內容和mysql連線內容都以星號代替 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/

Python：python抓取豆瓣電影top250

color nat gin else get 分頁技術分享 win .cn 一直對爬蟲感興趣，學了python後正好看到某篇關於爬取的文章，就心血來潮實戰一把吧。實現目標：抓取豆瓣電影top250，並輸出到文件中 1.找到對應的url：https://movie.d

Scrapy入門例項(使用Scrapy抓取豆瓣電影top250榜單）

專案地址：https://github.com/yuanfuzhi/ScrapyDemo.git 一 Scrapy介紹與安裝 1， Scrapy介紹 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中

php爬蟲爬取豆瓣電影top250內容

檢視豆瓣api文件我們直接選擇top250之後往下翻閱可以看到引數需求，有兩個引數，start和count，分別代表請求開始的起始地址，這裡是從0開始的，count代表請求的數目。<br/><br/> 返回資料

Python3 抓取豆瓣電影Top250

記憶碎片小蘿莉 range __name__ 黃金 pytho 摔跤吧奇跡 safari 利用 requests 抓取豆瓣電影 Top 250： import re import requests def main(url): global nu

Python爬蟲，用於抓取豆瓣電影Top前100的電影的名稱

初步接觸python爬蟲(其實python也是才起步)，發現一段程式碼研究了一下，覺得還比較有用處，Mark下。上程式碼： #!/usr/bin/python #coding=utf-8 #Author: Andrew_liu #mender：cy "

Python網路爬蟲：利用正則表示式爬取豆瓣電影top250排行前10頁電影資訊

在學習了幾個常用的爬取包方法後，轉入爬取實戰。爬取豆瓣電影早已是練習爬取的常用方式了，網上各種程式碼也已經很多了，我可能現在還在做這個都太土了，不過沒事，畢竟我也才剛入門…… 這次我還是利用正則表示式進行爬取，怎麼說呢，有人說寫正則表示式很麻煩，很多人都不

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

用Python爬蟲爬取豆瓣電影、讀書Top250並排序

更新：已更新豆瓣電影Top250的指令碼及網站概述經常用豆瓣讀書的童鞋應該知道，豆瓣Top250用的是綜合排序，除使用者評分之外還考慮了很多比如是否暢銷、點選量等等，這也就導致了一些近年來評分不高的暢銷書在這個排行榜上高高在上遠比一些經典名著排名還高，於是在這裡打算重新給To

[Python]抓取豆瓣電影列表的標題

使用Python2.7寫的指令碼，用來抓取豆瓣電影評分排行的標題。程式碼如下： #coding=utf-8 import urllib import re #匯入正則表示式庫 global x #全域性變數 x=1 url="http://ww

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

入門級爬蟲抓取豆瓣top250 的電影資訊

import requests import lxml.html from bs4 import BeautifulSoup import re import bs4 from pymongo impo

用Jsoup爬蟲抓取豆瓣書籍資訊

抓取豆瓣上的書籍資訊之前有一個愛立信外包的獵頭聯絡我，先是幫我推簡歷，然後讓程式設計實現爬蟲，抓取豆瓣上網際網路、程式設計、演算法的書籍資訊，自己太菜，電面就跪了。。。。。。但還是把自己的實現分享出來題目如下：將豆瓣（book.douban.com）裡的

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

相關推薦