Python爬取豆瓣電影Top250資料

阿新 • • 發佈：2019-02-01

初學pyhton，自己找個練手任務。爬取豆瓣電影top250，儲存為一個DataFrame資料格式，留待分析.(程式碼粗糙，留存）

from bs4 import BeautifulSoup
from urllib.request import urlopen
import pandas as pd
import numpy as np
from pandas import DataFrame,Series
import re
def split(str,regular):  #正則表示式過濾字串
    return re.split(regular,str)

def trans_list 
(main_list,sub_list):
    index=main_list.index(sub_list)
    sub_list.reverse()  #反轉list的排列
    for ele in sub_list:
        main_list.insert(index,ele)  #後一以元素插入在前一元素之前
    main_list.pop(main_list.index(sub_list))
    return main_list

def extract_info(li_tag):
    #使用.stripped_strings更方便
    info=[]
    for 
 string in li_tag.stripped_strings:
        info.append(string)
    #info=['1', '肖申克的救贖', '/\xa0The Shawshank Redemption', '/\xa0月黑高飛(港)  /  刺激1995(臺)',
    #'[可播放]', '導演: 弗蘭克·德拉邦特 Frank Darabont\xa0\xa0\xa0主演: 蒂姆·羅賓斯 Tim Robbins /...',
    #'1994\xa0/\xa0美國\xa0/\xa0犯罪 劇情', '9.6', '693081人評價', '希望讓人自由。']

    if '[可播放]' 
 in info:
        index=info.index('[可播放]')
        info.pop(index)  #delete unused info,the index-1
    class_hd=li_tag.find('div',{'class':'hd'})
    if len(class_hd.a.find_all('span'))==2:
        if '  /  ' in info[2]:
            info.insert(2,np.NaN)  #缺失則插入NaN，注意index
            info[3]=info[3][2:]
        else:
            info[2]=info[2][2:]
            info.insert(3,np.NaN)
    else:       
        info[2]=info[2][2:]  #MovieName,\xa0表示16進位制下A0的一個數，為一個字元
        info[3]=info[3][2:]  #EnglishName
    Dir_and_Act=split(info[4],r':|\xa0\xa0\xa0')  #正則表示式分割字串
    if len(Dir_and_Act)<4:
        Dir_and_Act.append('NaN')
    Yea_Cou_Gen=split(info[5],r'\xa0/\xa0')
    info[4]=Dir_and_Act
    info[5]=Yea_Cou_Gen
    info=trans_list(info,Dir_and_Act)
    info=trans_list(info,Yea_Cou_Gen)
    info.pop(4)  #去除‘導演’
    info.pop(5)  #起初’演員‘
    return info  #返回一行movie的資料，list的形式

def collecting_data(url,database):

    soup=BeautifulSoup(urlopen(url),'lxml')
    movie_grid=soup.find_all('ol',{'class':'grid_view'})  #找到電影表單
    movie=movie_grid[0].find_all('li')
    for li in movie:
        database.append(extract_info(li))  #data為list前提下，DataFrame([data])為行排列，DataFrame(data)為列排列
    return database  #database=[[],[],[],....]



def collect_all(url):
    database=[]
    collecting_data(url,database)
    data=pd.DataFrame(database)
    return data  #返回一行daframe格式



#mian
#url=r'https://movie.douban.com/top250?start=0&filter='#豆瓣電影top250地址
page=[]
for sequence in list(range(0,250,25)):
    url=r'https://movie.douban.com/top250?start=%d&filter=' %sequence  #所有top250的網頁地址
    page.append(collect_all(url))  #新增資料

GeneralData=pd.DataFrame()
for i in range(len(page)):
    GeneralData=pd.concat([GeneralData,page[i]],ignore_index=True)  #pd.concat:[]內要為DataFrame形式，

#儲存資料，待整理分析
GeneralData=GeneralData.drop(0,axis=1)  #去除編號的一列
column=['MovieName','EnglishName','OtherName','Director',\
        'Actors','Year','Country','Grenre','Rating10','RatingNum',\
        'Description']
GeneralData.columns=column
GeneralData.to_csv('MovieTop250.csv',encoding='utf-8')  #此函式預設解碼方式為utf-8，但是在儲存時不加encoding的話，讀取會產生錯誤
GeneralData.to_csv('Movie.csv')

資料結果如下圖：

Python爬取豆瓣電影Top250資料

初學pyhton，自己找個練手任務。爬取豆瓣電影top250，儲存為一個DataFrame資料格式，留待分析.(程式碼粗糙，留存） from bs4 import BeautifulSoup from urllib.request import url

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

python爬取豆瓣電影top250

簡要介紹：爬取豆瓣電影top250上相關電影的資訊，包括影片連結、影片名稱、上映時間、排名、豆瓣評分、導演、劇情簡介。使用：requests、etree、xpath 1、檢視網頁資訊，確定爬取的內容，建立資料庫： class SpiderData(pe

用python爬取豆瓣電影TOP250獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。

python小白，第一次爬蟲，如有不對的地方還請多多指出。用BeautifulSoup獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。cur_url：每一頁的地址，例如：https://movie.douban.c

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

python實踐2——利用爬蟲抓取豆瓣電影TOP250資料及存入資料到MySQL資料庫

這次以豆瓣電影TOP250網為例編寫一個爬蟲程式，並將爬取到的資料（排名、電影名和電影海報網址）存入MySQL資料庫中。下面是完整程式碼：Ps：在執行程式前，先在MySQL中建立一個數據庫"pachong"。import pymysql import requests imp

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

Python爬蟲實戰(3)-爬取豆瓣音樂Top250資料(超詳細)

前言首先我們先來回憶一下上兩篇爬蟲實戰文章：第一篇：講到了requests和bs4和一些網頁基本操作。第二篇：用到了正則表示式-re模組今天我們用lxml庫和xpath語法來爬蟲實戰。 1.安裝lxml庫 window：直接用pip去

[Python/爬蟲]利用xpath爬取豆瓣電影top250

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import r

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

爬取豆瓣電影top250提取電影分類進行資料分析

下的一部分 ”’ content = selector.xpath(‘//div[@class=”info”]/div[@class=”bd”]/p/text()’) print(content) for i in content[1::2]: print(str(i).strip().replace(‘nr

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

初學python：用簡單的爬蟲爬取豆瓣電影TOP250的排名

一開始接觸到python語言，對它沒什麼瞭解。唯一知道的就是它可以用來寫爬蟲，去爬取網路上的資源。爬蟲是一種按照一定的規則，自動地抓取網路上的資訊的程式或者指令碼。所以當我對python有一定的瞭解後，我就想個寫個爬蟲來試試手。於是就有了這篇文章，用簡單的爬蟲爬取豆瓣電影TO

Python網路爬蟲：利用正則表示式爬取豆瓣電影top250排行前10頁電影資訊

在學習了幾個常用的爬取包方法後，轉入爬取實戰。爬取豆瓣電影早已是練習爬取的常用方式了，網上各種程式碼也已經很多了，我可能現在還在做這個都太土了，不過沒事，畢竟我也才剛入門…… 這次我還是利用正則表示式進行爬取，怎麼說呢，有人說寫正則表示式很麻煩，很多人都不

python 爬取豆瓣電影排行榜TOP250 儲存到資料庫或檔案

本篇文章爬取豆瓣電影排行榜，使用的模組：第三方模組requests，正則模組，資料庫MySQL等 import requests import re import pymysql class DouBan: def __init__(self):

scrapy爬取豆瓣電影top250

imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i

團隊-爬取豆瓣電影TOP250-需求分析

影評鏈接 lock 分析 strong str 需求分析豆瓣信息團隊-爬取豆瓣電影TOP250-需求分析需求:爬取豆瓣電影TOP250 *向用戶展示電影的排名,分數,名字,簡介,導演,演員,前10條影評信息,鏈接信息實現思路: 分析豆瓣電影TOP250

《團隊-爬取豆瓣電影TOP250-需求分析》

round ack 地址 align wid ica san pad ext 需求： 1.搜集相關電影網址 2.實現相關邏輯的代碼項目步驟： 1.通過豆瓣網搜索關鍵字，獲取相關地址 2.根據第三方包實現相關邏輯《團隊-爬取豆瓣電影TOP250-需求分析》

Python爬取豆瓣電影Top250資料

相關推薦