python爬蟲——豆瓣電影Top250

阿新 • • 發佈：2019-01-15

主要功能
1.利用lxml爬取豆瓣電影top250https://movie.douban.com/top250
2.用xpath確定所爬取資料的位置
3.獲取資料，將資料寫到txt文件中儲存

實現步驟
1.網頁分析，進入網站（本文使用的是谷歌瀏覽器）
豆瓣電影top250

2.按F12開啟開發者工具,找到Elements，進行網頁內容的分析
這裡寫圖片描述

這裡寫圖片描述

3.我們發現，網頁裡面有很多<li>...</li>標籤,而且每一個標籤裡面都有一個電影的資訊。我們想要的就是標籤裡面的文字資訊。
這裡寫圖片描述

4.所有的資訊都在class屬性為info的div標籤裡，可以先把這個節點取出來 //*[@id=”content”]/div/div[1]/ol

這裡我們介紹一下xpath的語法格式：
XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

下面列出了最有用的路徑表示式：

表示式	描述
nodename	選取此節點的所有子節點。
/	從根節點選取。
//	從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置。
.	選取當前節點。
..	選取當前節點的父節點。
@	選取屬性。

使用例項

路徑表示式	結果
/bookstore/book[1]	選取屬於 bookstore 子元素的第一個 book 元素。
/bookstore/book[last()]	選取屬於 bookstore 子元素的最後一個 book 元素。
/bookstore/book[last()-1]	選取屬於 bookstore 子元素的倒數第二個 book 元素。
/bookstore/book[position()<3]	選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。
//title[@lang]	選取所有擁有名為 lang 的屬性的 title 元素。
//title[@lang=’eng’]	選取所有 title 元素，且這些元素擁有值為 eng 的 lang 屬性。
/bookstore/book[price>35.00]	選取 bookstore 元素的所有 book 元素，且其中的 price 元素的值須大於 35.00。
/bookstore/book[price>35.00]/title	選取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值須大於 35.00。

5.知道xpath的用法後，我們就可以輕鬆的拿到我們想要的資訊了！！！
影片名稱：title = i.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0]
導演演員資訊：info = i.xpath('div[@class="bd"]/p[1]/text()')
評分：rate = i.xpath('//span[@class="rating_num"]/text()')[0]
評論人數：comCount = i.xpath('//div[@class="star"]/span[4]/text()')[0]

6.已經知道如何獲取電影資訊了，現在的任務是找到請求網址，我們可以翻頁尋找網址的規律，看看第二頁，第三頁……網址是什麼樣的。
這裡寫圖片描述

不難發現規律，只是每頁網址的start=發生變化。我們可以使用for迴圈來請求每頁網址，

for i in range(10): 
    url = 'https://movie.douban.com/top250?start={}&filter='.format(i*25)

除此之外，我們也可利用xpath獲取後頁的連結（//div[@class=”paginator”]/span[@class=”next”]/a/@href）,與‘https://movie.douban.com/top250’拼接，同樣可以獲取下一頁地址。
這裡寫圖片描述

完整程式碼

# coding:utf-8 
import requests 
from lxml import html 
k = 1 
for i in range(10): 
    url = 'https://movie.douban.com/top250?start={}&filter='.format(i*25) 
    con = requests.get(url).content
    sel = html.fromstring(con) 

    # 所有的資訊都在class屬性為info的div標籤裡，可以先把這個節點取出來 //*[@id="content"]/div/div[1]/ol
    for i in sel.xpath('//div[@class="info"]'): 

        # 影片名稱 
        title = i.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0] 
        #print(title)
        info = i.xpath('div[@class="bd"]/p[1]/text()') 
        # 導演演員資訊 
        info_1 = info[0].replace(" ", "").replace("\n", "") 
        # 上映日期 
        date = info[1].replace(" ", "").replace("\n", "").split("/")[0] 
        # 製片國家 
        country = info[1].replace(" ", "").replace("\n", "").split("/")[1] 
        # 影片型別 
        geners = info[1].replace(" ", "").replace("\n", "").split("/")[2] 
        # 評分 
        rate = i.xpath('//span[@class="rating_num"]/text()')[0] 
        # 評論人數 
        comCount = i.xpath('//div[@class="star"]/span[4]/text()')[0] 

        # 列印結果看看 
        print ("TOP%s" % str(k))
        print( title, info_1, rate, date, country, geners, comCount )

        # 寫入檔案 
        with open("top250.txt", "a",encoding='utf-8') as f: 
            f.write("TOP%s\n影片名稱：%s\n評分：%s %s\n上映日期：%s\n上映國家：%s\n%s\n" % (k, title, rate, comCount, date, country, info_1)) 

            f.write("==========================\n") 

        k += 1

擴充套件

將爬取的資料存入Mysql資料庫

1.新建資料庫crawl，並在資料庫crawl中新建表doubanmovie,所建表如圖所示。

這裡寫圖片描述

2.對上面的程式碼稍作修改，將存取到TXT文件改為資料庫，完整程式碼如下：

# coding:utf-8
import requests
import pymysql
from lxml import html
k = 1
for i in range(10):
    url = 'https://movie.douban.com/top250?start={}&filter='.format(i*25)
    con = requests.get(url).content
    sel = html.fromstring(con)
    # 所有的資訊都在class屬性為info的div標籤裡，可以先把這個節點取出來 //*[@id="content"]/div/div[1]/ol
    for i in sel.xpath('//div[@class="info"]'):

        # 影片名稱
        title = i.xpath('div[@class="hd"]/a/span[@class="title"]/text()')[0]
        #print(title)
        info = i.xpath('div[@class="bd"]/p[1]/text()')
        # 導演演員資訊
        info_1 = info[0].replace(" ", "").replace("\n", "")
        # 上映日期
        date = info[1].replace(" ", "").replace("\n", "").split("/")[0]
        # 製片國家
        country = info[1].replace(" ", "").replace("\n", "").split("/")[1]
        # 影片型別
        geners = info[1].replace(" ", "").replace("\n", "").split("/")[2]
        # 評分
        rate = i.xpath('//span[@class="rating_num"]/text()')[0]
        # 評論人數
        comCount = i.xpath('//div[@class="star"]/span[4]/text()')[0]

        # 列印結果看看
        print ("TOP%s" % str(k))
        print( title, info_1, rate, date, country, geners, comCount )


        connection=''
        try:
            # 獲取一個有效的資料庫連線物件，此處填寫你的資料庫資訊，特別注意charset一定要寫成'utf8'，不能寫成'utf-8'。
            connection = pymysql.connect(host='localhost', port=3306,
                                         user='root', password='mysql',
                                         db='crawl', charset='utf8')
            if connection:
                print("[mysql]>>正確獲取資料庫的連線物件")

            # 建立一個遊標物件
            curosr = connection.cursor()
            print('[mysql]正確獲取遊標物件')
            # 設定插入資料的sql語句模板
            sql = "insert into doubanmovie VALUES (null,'%d','%s','%s,','%s','%s','%s','%s')" % (k, title, rate, comCount, date, country, info_1)
            print('[mysql]>>%s' % sql)

            # 使用遊標物件傳送sql語句並將伺服器結果返回
            affectedRows = curosr.execute(sql)
            msg = '[mysql]>>寫入操作成功' if affectedRows > 0 else '[mysql]>>寫入失敗'
            print(msg)
            # 事務提交
            connection.commit()
            print("[mysql]>>事務提交")
        except:
            connection.rollback()
            print('[mysql]事務回滾')
        finally:
            # 關閉資料庫連線
            connection.close()
            print("[mysql]>>關閉資料庫連線")
            k += 1

注意事項及功能均在程式碼註釋中。
執行結果如圖：
這裡寫圖片描述

如圖已將所有資訊存入到資料庫中！

python爬蟲——豆瓣電影Top250

使用例項

完整程式碼

擴充套件

將爬取的資料存入Mysql資料庫

python爬蟲——豆瓣電影Top250

Python爬蟲-豆瓣電影 Top 250

Python3爬蟲豆瓣電影TOP250將電影名寫入到EXCEL

用Python分析豆瓣電影Top250

python爬蟲練習1:豆瓣電影TOP250

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

零基礎Python爬蟲實戰：豆瓣電影TOP250

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

（7）Python爬蟲——爬取豆瓣電影Top250

[Python/爬蟲]利用xpath爬取豆瓣電影top250

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

Python爬蟲小案例：豆瓣電影TOP250

python爬蟲（一）爬取豆瓣電影Top250

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

初學python：用簡單的爬蟲爬取豆瓣電影TOP250的排名

Python網路爬蟲：利用正則表示式爬取豆瓣電影top250排行前10頁電影資訊

【Python】從0開始寫爬蟲——豆瓣電影

python抓取豆瓣電影top250資訊

python爬取豆瓣電影Top250的資訊

一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

python爬蟲——豆瓣電影Top250

使用例項

完整程式碼

擴充套件

將爬取的資料存入Mysql資料庫

相關推薦