Python：python抓取豆瓣電影top250

阿新 • • 發佈：2019-03-27

color nat gin else get 分頁技術分享 win .cn

一直對爬蟲感興趣，學了python後正好看到某篇關於爬取的文章，就心血來潮實戰一把吧。

實現目標：抓取豆瓣電影top250，並輸出到文件中

1.找到對應的url：https://movie.douban.com/top250

2.進行頁面元素的抓取：

技術分享圖片

3.編寫代碼：

　　第一步：實現抓取第一個頁面；

　　第二步：將其他頁面的信息也抓取到；

　　第三步：輸出到文件；

4.代碼：

import sys
import io
from selenium import webdriver

#改變標準輸出，解決輸出到文件時遇到的編碼問題。
# 如果輸出到控制行，不要加這一行
# sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding=‘gb18030‘)
 

class DouBan:
    #初始化driver對象，打開頁面，最大化頁面
    def __init__(self):
        self.driver=webdriver.Chrome()
        self.driver.get(‘https://movie.douban.com/top250‘)
        self.driver.maximize_window()

    # 分頁判斷，默認顯示第一頁，輸出第一頁後，點擊下一頁按鈕，再輸出。總共10頁
    def get_content(self):
        for page in range(1,10):
            #獲取元素定位： 對當前頁面中 單個電影元素進行定位
 
            movie = self.driver.find_elements_by_class_name(‘info‘)

           # for循環：循環輸出當前頁面中單部影片的電影信息（text輸出元素的文本內容）；
            i = 1
            for item in movie:
                #輸出格式： 電影序號 +  電影介紹  +換行展示
                print(str(i+ page*25-25)+":　"+item.text+‘‘)
                print("")
                i+=1
 

            # 判斷：如果當前頁面碼小於10，則查找頁碼的元素，並點擊頁碼。否則不用進行查找，因為最多點擊第10頁；
            # 獲取底部的頁簽元素（采用了format格式輸出，根據當前頁面做加1操作）
            if page<10:
                page_but = self.driver.find_element_by_xpath(‘//div[@class="paginator"]//a[contains(text(),{0})]‘.format(page + 1))
                page_but.click()
            else:
                pass

if __name__ == ‘__main__‘:
    DouBan().get_content()

5.結果：

1）控制臺輸出部分截圖：

技術分享圖片

2）如果想要輸出到文件，執行命令並重定向到TXT文件中：

python xxxx.py >d:/out_test.txt

6.遇到的問題：

1.多頁時，for循環的數字設置，來回試幾次就可以了，不難。

2.輸出到文件中（參照博客：https://www.cnblogs.com/feng18/p/5646925.html，講的比較詳細）

技術分享圖片

真的很簡單，有問題留言問我吧~

Python：python抓取豆瓣電影top250

color nat gin else get 分頁技術分享 win .cn 一直對爬蟲感興趣，學了python後正好看到某篇關於爬取的文章，就心血來潮實戰一把吧。實現目標：抓取豆瓣電影top250，並輸出到文件中 1.找到對應的url：https://movie.d

python抓取豆瓣電影top250資訊

1、本博文中程式碼是轉載內容，原文章地址如下： https://blog.csdn.net/submit66/article/details/78631342?utm_source=blogxgwz1 2、只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼 3、本

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式，並將爬取到的資料（排名、電影名和電影海報網址）存入MySQL資料庫中。下面是完整程式碼：Ps：在執行程式前，先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

Scrapy入門例項(使用Scrapy抓取豆瓣電影top250榜單）

專案地址：https://github.com/yuanfuzhi/ScrapyDemo.git 一 Scrapy介紹與安裝 1， Scrapy介紹 Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架。可以應用在包括資料探勘，資訊處理或儲存歷史資料等一系列的程式中

爬蟲專案：requests爬取豆瓣電影TOP250存入excel中

這次爬取是爬取250部電影的相關內容，分別用了requests請求url，正則表示式re與BeautifulSoup作為內容過濾openpyxl作為excel的操作模組，本人為才學不久的新手，程式碼編寫有點無腦和囉嗦，希望有大神能多提建議首先，程式碼清單如下：

Python3 抓取豆瓣電影Top250

記憶碎片小蘿莉 range __name__ 黃金 pytho 摔跤吧奇跡 safari 利用 requests 抓取豆瓣電影 Top 250： import re import requests def main(url): global nu

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

初學python：用簡單的爬蟲爬取豆瓣電影TOP250的排名

一開始接觸到python語言，對它沒什麼瞭解。唯一知道的就是它可以用來寫爬蟲，去爬取網路上的資源。爬蟲是一種按照一定的規則，自動地抓取網路上的資訊的程式或者指令碼。所以當我對python有一定的瞭解後，我就想個寫個爬蟲來試試手。於是就有了這篇文章，用簡單的爬蟲爬取豆瓣電影TO

Python網路爬蟲：利用正則表示式爬取豆瓣電影top250排行前10頁電影資訊

在學習了幾個常用的爬取包方法後，轉入爬取實戰。爬取豆瓣電影早已是練習爬取的常用方式了，網上各種程式碼也已經很多了，我可能現在還在做這個都太土了，不過沒事，畢竟我也才剛入門…… 這次我還是利用正則表示式進行爬取，怎麼說呢，有人說寫正則表示式很麻煩，很多人都不

[Python]抓取豆瓣電影列表的標題

使用Python2.7寫的指令碼，用來抓取豆瓣電影評分排行的標題。程式碼如下： #coding=utf-8 import urllib import re #匯入正則表示式庫 global x #全域性變數 x=1 url="http://ww

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

[python爬蟲入門]爬取豆瓣電影排行榜top250

要爬取內容的是豆瓣網的電影排行top250: https://movie.douban.com/top250, 將電影名和評分爬取下來並輸出, 如下圖: 使用了tkinter做了簡單頁面然後分析如何爬取內容: 首先爬取標題: 檢視原始碼後, 發現標

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

[Python/爬蟲]利用xpath爬取豆瓣電影top250

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import r

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

python爬取豆瓣電影top250

簡要介紹：爬取豆瓣電影top250上相關電影的資訊，包括影片連結、影片名稱、上映時間、排名、豆瓣評分、導演、劇情簡介。使用：requests、etree、xpath 1、檢視網頁資訊，確定爬取的內容，建立資料庫： class SpiderData(pe

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

Python爬取豆瓣電影Top250資料

初學pyhton，自己找個練手任務。爬取豆瓣電影top250，儲存為一個DataFrame資料格式，留待分析.(程式碼粗糙，留存） from bs4 import BeautifulSoup from urllib.request import url

用python爬取豆瓣電影TOP250獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。

python小白，第一次爬蟲，如有不對的地方還請多多指出。用BeautifulSoup獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。cur_url：每一頁的地址，例如：https://movie.douban.c

Python：python抓取豆瓣電影top250

相關推薦