爬取豆瓣正在上映的影片資訊

阿新 • • 發佈：2018-12-26

import requests
from lxml import etree


# 將目標網站上的頁面抓取下來
# headers  ->   url  -> requests   -> response
# response.text  返回的是一個經過解碼後的字串，是str（unicode）型別
# response.content 返回的是一個原生的字串，就是從網頁上抓取下來的，沒有經過處理的字串，是bytes型別
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
    'Referer':'https://movie.douban.com/'
}

url = 'https://movie.douban.com/cinema/nowplaying/nanjing/'
response = requests.get(url,headers=headers)
text = response.text

# 將抓取下來的資料根據一定的規則進行提取
html = etree.HTML(text,parser=etree.HTMLParser())    # parser   html解析器
ul = html.xpath("//ul[@class='lists']")[0]    # 獲取屬性為lists的ul標籤內容，因為正在上映和即將上映是一樣的，所以取列表的第一個元素，即正在上映的ul
lis = ul.xpath("./li")    # 獲取ul標籤下的li標籤(每部影片在一個li標籤下面)
movies = []

for li in lis:
    title = li.xpath("@data-title")[0]   # xpath返回的是一個列表    影片名字
    score = li.xpath("@data-score")[0]   # 影片評分
    release_time = li.xpath("@data-release")[0]  # 上映時間
    time = li.xpath("@data-duration")[0]    # 影片時長
    region = li.xpath("@data-region")[0]   # 製片國家地區
    director = li.xpath("@data-director")[0]  #導演
    actors = li.xpath("@data-actors")[0]   #主演
    category = li.xpath("@data-category")[0]    #上映型別
    image = li.xpath(".//img/@src")[0]   # 圖片連結


    movie = {
        'title':title,
        'score':score,
        'release':release_time,
        'time':time,
        'region':region,
        'director':director,
        'actors':actors,
        'category':category,
        'image_link':image
    }

    movies.append(movie)

for movie in movies:
    for value in movie.values():
        print(value + "||",end="")
    print()

爬取豆瓣正在上映的影片資訊

import requests from lxml import etree # 將目標網站上的頁面抓取下來 # headers -> url -> requests -> response # response.text 返回的是一個經過解碼後的字串，是str（

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

【Python爬蟲第二彈】基於爬蟲爬取豆瓣書籍的書籍資訊查詢

爬蟲學了有半個月的時間了，其實這半個月真正學到的東西也不過就是requsets和beautifulsoup的用法，慚愧，收穫不太大，還沒有接觸scrapy框架，但是光這個beautifulsoup可以完成的事情已經很多了，然後簡單的使用了pandas可以將爬取到

基於BeautifulSoup爬取豆瓣網上的電影資訊

基於BeautifulSoup實現爬取豆瓣網上的電影資訊這些天在學習Python，瞭解到用Python做網頁網頁爬蟲非常的方便，於是琢磨著寫了一個簡單的爬蟲程式（感謝萬能的beautifulSoup框架，ps:做網頁解析太方便了）。當然這是計劃中的一部分，說

python正則表示式爬取豆瓣圖書資訊

import requests import re content = requests.get('https://book.douban.com/').text pattern = re.compile('<li.*?cover.*?href="(.*?)".*?ti

Python網路爬蟲：利用正則表示式爬取豆瓣電影top250排行前10頁電影資訊

在學習了幾個常用的爬取包方法後，轉入爬取實戰。爬取豆瓣電影早已是練習爬取的常用方式了，網上各種程式碼也已經很多了，我可能現在還在做這個都太土了，不過沒事，畢竟我也才剛入門…… 這次我還是利用正則表示式進行爬取，怎麼說呢，有人說寫正則表示式很麻煩，很多人都不

關於html的多行匹配，正則re.S的使用（爬取豆瓣電影短評）

htm detail 3.1 port encoding 關於 color tel frame 參考鏈接：http://www.python(tab).com/html/2017/pythonhexinbiancheng_0904/1170.html(去除括號) 　　　　

用Requests和正則表示式爬取豆瓣圖書TOP250

思路和上文大同小異。 import requests from requests.exceptions import RequestException import re import json headers = {'User-Agent':'Mozilla/5.0(Macinto

requests+正則表示式爬取豆瓣讀書top250

簡單的python練手專案，通過rquests庫請求得到豆瓣top250網頁原始碼，並通過正則表示式匹配得到對應資訊-書名，作者資訊，評分以及簡介。網站的URL為’https://book.douban.com/top250?start=0’,但我們拉到底部發現250本讀書的資訊被分成了1

案例學python——案例三：豆瓣電影資訊入庫一起學爬蟲——通過爬取豆瓣電影top250學習requests庫的使用

　閒扯皮昨晚給高中的妹妹微信講題，函式題，小姑娘都十二點了還迷迷糊糊。今天凌晨三點多，被連續的警報聲給驚醒了，以為上海拉了防空警報，難不成地震，空襲？難道是樓下那個車主車子被堵了，長按喇叭？開窗看看，好像都不是。好鬼畜的警報聲，家裡也沒裝報警器啊，莫不成家裡煤氣漏了？起床循聲而查，報警

利用Requests庫和正則表示式爬取豆瓣影評Top250

說明最近看了下爬蟲基礎，想寫個部落格來記錄一下，一來是可以方便和我一樣剛入門的小白來參考學習，二來也當做自己的筆記供自己以後查閱。本文章是利用python3.6和Requests庫（需自行安裝，cmd裡執行pip install r

爬取豆瓣圖書首頁的圖書資訊

使用requests庫和re庫來爬取豆瓣圖書首頁的圖書資訊 import requests import re content = requests.get("http://book.douban.com").text #get函式獲取豆瓣圖書網頁程式碼 pattern

python爬蟲——爬取豆瓣電影top250資訊並載入到MongoDB資料庫中

最近在學習關於爬蟲方面的知識，因為剛開始接觸，還是萌新，所以有什麼錯誤的地方，歡迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index

【Python爬蟲】Scrapy框架運用1—爬取豆瓣電影top250的電影資訊(1)

一、Step step1: 建立工程專案 1.1建立Scrapy工程專案 E:\>scrapy startproject 工程專案 1.2使用Dos指令檢視工程資料夾結構 E:\>tree /f step2: 建立spid

爬取豆瓣電影排行（T250）的資訊

1.分析針對所爬去的Url進行分析：分析網址'?'符號後的引數，第一個引數'start=0'，這個代表頁數，‘=0’時代表第一頁，‘=25’代表第二頁，以此類推。 1.1頁面分析明確要爬取的元素：排名、名字、導演、評語、評分 1.2 頁面程式碼分析

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

爬取豆瓣的圖書資訊

emmm，感謝豆瓣提供的平臺，爬也沒那麼多反爬蟲機制。於是順手爬了。。。# coding:utf-8# 採集豆瓣書資訊和圖片，寫進資料庫from urllib import parsefrom urllib import requestfrom lxml import etr

python爬取豆瓣電影資訊

''' 用到的主要知識：(詳情見官方文件） 1. requests 2. BeautifulSoup 3. codecs 4. os ''' #-*-coding:utf-8 import requests from bs4 import Beautif

Python爬蟲入門 | 2 爬取豆瓣電影資訊

這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步瞭解爬蟲，跟著課程內容能自己爬取資源。看著文章，開啟電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~ 好啦，正式開始我們的第二節課《爬取豆瓣電影資訊

2-6-1 應用案例：爬取豆瓣 TOP250 電影資訊並存儲（版本：py3）——學習筆記

爬取電影名稱、連結並寫入檔案 import urllib.request as urlrequest from bs4 import BeautifulSoup import time #休息時間 import random #為了時間隨機 top250_url="htt

爬取豆瓣正在上映的影片資訊

相關推薦