爬取豆瓣電影排行（T250）的資訊

阿新 • • 發佈：2019-01-24

1.分析

針對所爬去的Url進行分析：

分析網址'?'符號後的引數，第一個引數'start=0'，這個代表頁數，‘=0’時代表第一頁，‘=25’代表第二頁，以此類推。

1.1頁面分析

明確要爬取的元素：排名、名字、導演、評語、評分

1.2 頁面程式碼分析

2.網站資訊爬取

2.1 獲取每部分電影資訊

def get_html(web_url):
    header = {
        "User-Agent":"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) 
    AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16"}
    html = requests.get(url=web_url,headers= header).text
    soup = BeautifulSoup(html,'lxml')
    data = soup.find('ol').find_all('li') #擷取需要的內容
    return data

【程式碼說明】

requests.get()函式，會根據引數中url的連結，返回response物件

.text會將response物件轉換成str型別

find_all()函式，會將html文字中的ol標籤下的每一個li標籤中的內容篩選出來

2.2 篩選資訊儲存進入文字

def get_info(all_move):

    f = open("./douban.txt", "a",encoding='UTF-8')

    for info in all_move:
        #排名
        nums = info.find('em')
        num = nums.get_text()

        #名字
        names = info.find("span")  # 名字比較簡單 直接獲取第一個span就是
        name = names.get_text()

        #導演
        charactors = info.find("p")  # 這段資訊中有太多非法符號你需要替換掉
        charactor = charactors.get_text().replace(" ", "").replace("\n", "")  # 使資訊排列規律
        charactor = charactor.replace("\xa0", "").replace("\xee", "").replace("\xf6", "").replace("\u0161", "").replace(
            "\xf4", "").replace("\xfb", "").replace("\u2027", "").replace("\xe5", "")

        #評語
        remarks = info.find_all("span", {"class": "inq"})
        if remarks:  # 這個判斷是因為有的電影沒有評語，你需要做判斷
            remark = remarks[0].get_text().replace("\u22ef", "")
        else:
            remark = "此影片沒有評價"
        print(remarks)

        #評分
        scores = info.find_all("span", {"class": "rating_num"})
        score = scores[0].get_text()

        f.write(num + '、')
        f.write(name + "\n")
        f.write(charactor + "\n")
        f.write(remark + "\n")
        # f.write(score)
        f.write("\n\n")

    f.close()  # 記得關閉檔案

注意爬取元素的時候，會有非法符號（因為這些符號的存在，會影響你寫入文字中），所以需要將符號用replace函式替換.

【Tips】注意寫資料時將格式改為“UTF-8”,不然所寫資訊為亂碼

3.全部程式碼（如下）

#coding:utf-8
from bs4 import BeautifulSoup
import requests
import os

def get_html(web_url):
    header = {
        "User-Agent":"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16"}
    html = requests.get(url=web_url,headers= header).text
    soup = BeautifulSoup(html,'lxml')
    data = soup.find('ol').find_all('li') #擷取需要的內容
    return data

def get_info(all_move):

    f = open("./douban.txt", "a",encoding='UTF-8')

    for info in all_move:
        #排名
        nums = info.find('em')
        num = nums.get_text()

        #名字
        names = info.find("span")  # 名字比較簡單 直接獲取第一個span就是
        name = names.get_text()

        #導演
        charactors = info.find("p")  # 這段資訊中有太多非法符號你需要替換掉
        charactor = charactors.get_text().replace(" ", "").replace("\n", "")  # 使資訊排列規律
        charactor = charactor.replace("\xa0", "").replace("\xee", "").replace("\xf6", "").replace("\u0161", "").replace(
            "\xf4", "").replace("\xfb", "").replace("\u2027", "").replace("\xe5", "")

        #評語
        remarks = info.find_all("span", {"class": "inq"})
        if remarks:  # 這個判斷是因為有的電影沒有評語，你需要做判斷
            remark = remarks[0].get_text().replace("\u22ef", "")
        else:
            remark = "此影片沒有評價"
        print(remarks)

        #評分
        scores = info.find_all("span", {"class": "rating_num"})
        score = scores[0].get_text()

        f.write(num + '、')
        f.write(name + "\n")
        f.write(charactor + "\n")
        f.write(remark + "\n")
        # f.write(score)
        f.write("\n\n")

    f.close()  # 記得關閉檔案


if __name__ == "__main__":
    File_Path = os.getcwd()[:-4] + 'Test\\'  # 獲取到當前檔案的目錄，並檢查是否有report資料夾，如果不存在則自動新建report檔案
    if not os.path.exists(File_Path):
        os.makedirs(File_Path)

    page = 0  # 初始化頁數，TOP一共有250部   每頁25部
    while page <= 225:
        web_url = "https://movie.douban.com/top250?start=%s&filter=" % page
        all_move = get_html(web_url)  # 返回每一頁的網頁
        get_info(all_move)  # 匹配對應資訊存入本地
        page += 25

【結果展示】

Wimb

爬取豆瓣電影排行（T250）的資訊

1.分析針對所爬去的Url進行分析：分析網址'?'符號後的引數，第一個引數'start=0'，這個代表頁數，‘=0’時代表第一頁，‘=25’代表第二頁，以此類推。 1.1頁面分析明確要爬取的元素：排名、名字、導演、評語、評分 1.2 頁面程式碼分析

爬蟲]利用xpath爬取豆瓣電影top250（轉）

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import re import requests import lxml.html url

使用python爬取豆瓣電影圖片（-）

學python沒多久，主要想用它來做爬蟲，寫api建議用node.js,做全站頁面渲染用php搞定，做爬蟲還得看python: 這裡沒有用python的一些爬蟲框架，先採用python內建模組urllib直接處理頁面抓取，然後解析內容然後直接下載圖片：直接抓取豆瓣圖片

python3爬取豆瓣電影Ajax（獲取動態內容）

利用python3中的urllib模組對豆瓣電影的“喜劇片”進行爬取。因為是動態頁面，我們關注點應在資料來源上，我們知道所有Ajax資料來源都是json，通過Fiddler抓包工具，我們可以獲取相應json資料，提取出相應url，以及post請求的QuerySt

關於html的多行匹配，正則re.S的使用（爬取豆瓣電影短評）

htm detail 3.1 port encoding 關於 color tel frame 參考鏈接：http://www.python(tab).com/html/2017/pythonhexinbiancheng_0904/1170.html(去除括號) 　　　　

python爬蟲實踐——零基礎快速入門（二）爬取豆瓣電影

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。爬蟲的基本原理——通用框架 1.挑選種子URL； 2.講這些URL放入帶抓取的URL列隊； 3.取出帶抓取的URL，下載並存儲進已下載網頁庫中。此外，講這些URL放入帶抓取UR

python爬蟲（爬取豆瓣電影）_動態網頁,json解釋,中文編碼

from bs4 import BeautifulSoup import requests import json import sys import codecs reload(sys) sys.setdefaultencoding( "utf-8" ) rank

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

scrapy入門實戰練習（一）----爬取豆瓣電影top250

轉自知乎網工具和環境語言：python 2.7IDE： Pycharm瀏覽器：Chrome爬蟲框架：Scrapy 1.2.1教程正文觀察頁面結構通過觀察頁面決定讓我們的爬蟲獲取每一部電影的排名、電影名稱、評分和評分的人數。宣告ItemItems爬取的主要目標就是從非結構性的資

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後，本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有：如何利用ImagesPi

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

Scrapy實戰篇（三）之爬取豆瓣電影短評

地址 pad __init__ {} 爬取 opera -m range pytho 今天的主要內容是爬取豆瓣電影短評，看一下網友是怎麽評價最近的電影的，方便我們以後的分析，以以下三部電影：二十二，戰狼，三生三世十裏桃花為例。由於豆瓣短評網頁比較簡單，且不存在動態加載的內

簡單團隊-爬取豆瓣電影T250-項目進度

部分色彩核心 body pan log png 服務器功能本次主要講解一下我們的頁面設計及展示最終效果：頁面設計主要用到的軟件是：html，css，js，主要用的編譯器是：sublime，dreamweaver，eclipse，由於每個人使用習慣不一樣，所以有的

用pyquery 初步改寫崔慶才的抓取貓眼電影排行（正在更新）特意置頂，提醒自己更新

items parse rac info sco ber windows time ont 目前正在學Python爬蟲，正在讀崔慶才的《Python3網絡爬蟲開發實戰》，之前學習正則表達式，但是由於太難，最後放棄了（學渣的眼淚。。。。），在這本書上的抓取貓眼電影排行上，

scrapy爬取豆瓣電影top250

imp port 爬取 all lba item text request top 1 # -*- coding: utf-8 -*- 2 # scrapy爬取豆瓣電影top250 3 4 import scrapy 5 from douban.items i

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

團隊-爬取豆瓣電影TOP250-需求分析

影評鏈接 lock 分析 strong str 需求分析豆瓣信息團隊-爬取豆瓣電影TOP250-需求分析需求:爬取豆瓣電影TOP250 *向用戶展示電影的排名,分數,名字,簡介,導演,演員,前10條影評信息,鏈接信息實現思路: 分析豆瓣電影TOP250

《團隊-爬取豆瓣電影TOP250-需求分析》

round ack 地址 align wid ica san pad ext 需求： 1.搜集相關電影網址 2.實現相關邏輯的代碼項目步驟： 1.通過豆瓣網搜索關鍵字，獲取相關地址 2.根據第三方包實現相關邏輯《團隊-爬取豆瓣電影TOP250-需求分析》

團隊-爬取豆瓣電影TOP250-開發環境搭建過程

技術團隊 img mage www. 9.png 官網下載 har image 從官網下載安裝包（http://www.python.org）。安裝Python 選擇安裝路徑（我選的默認）安裝Pycharm 1.從官網下載安裝包（ht

爬取豆瓣電影排行（T250）的資訊

1.分析

1.1頁面分析

明確要爬取的元素 ：排名、名字、導演、評語、評分

1.2 頁面程式碼分析

2.網站資訊爬取

2.1 獲取每部分電影資訊

2.2 篩選資訊儲存進入文字

3.全部程式碼（如下）

相關推薦

明確要爬取的元素：排名、名字、導演、評語、評分