使用python爬取豆瓣電影圖片（-）

阿新 • • 發佈：2019-01-13

學python沒多久，主要想用它來做爬蟲，寫api建議用node.js,做全站頁面渲染用php搞定，做爬蟲還得看python:

這裡沒有用python的一些爬蟲框架，先採用python內建模組urllib直接處理頁面抓取，然後解析內容然後直接下載圖片：

直接抓取豆瓣圖片api，解析並下載圖片:

# -*- coding: utf-8 -*-
import json
import urllib
import re
def getHtml(url):
     request =url
     response = urllib.urlopen(request)
     return response.read()

def downloadPic(url,start):
    source =getHtml(url)
    s = json.loads(source)
    imgArr = s['subjects']
    index=0
    for i in imgArr:
        #print i['title'],i['url']
        ext=re.findall(r'.*\.(\w+)$',i['cover'])
        if len(ext)>0:
            ext =ext[0]
        else:
            ext='jpg'
        path='./img/douban_%s_%s.%s' % (start,index,ext)
        print path
        f=open(path,'w')
        f.write(getHtml(i['cover']))
        f.close()
        index=index+1

def downMore(num=0):
    for i in range(num):
        p=i*20
        url='http://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start='+str(p)
        print 'url is %s' % url
        downloadPic(url,i)


downMore(13)

直接抓取豆瓣電影頁面原始碼解析並下載圖片：

# -*- coding: utf-8 -*-
import urllib
import re
def getHtml(url):
     request =url
     response = urllib.urlopen(request)
     return response.read()
 
def trimempty(n):
    return len(n)>12
url='http://movie.douban.com'
data= getHtml(url)
#print data
#imgs= re.findall(r'<a\s+.*href=\'([^\']*)\'\s+.*>.*<\/a>',data)
imgs= re.findall(r'<img\s+.*src=\"([^\"]*)\"\s+.*>',data)
if len(imgs)>50:
    imgs = imgs[0:50]
else:
    imgs=imgs

imgs = filter(trimempty,imgs)
print imgs
index=0
for i in imgs:
    extArr=re.findall(r'.*\.(\w+)$',i)
    if(len(extArr)>0):
        ext =extArr[0]
    else:
        ext='jpg'
    path ='./img/%s.%s' % (index,ext)
    print path
    f=open(path,'w')
    f.write(getHtml(i))
    f.close()
    index=index+1

執行程式碼前，先到當前目錄下新建img資料夾，執行程式碼大功告成！

小問題是windows下圖片顯示不正常，linux下完美下載，最後建議小夥伴們不要再windows上跑python了

使用python爬取豆瓣電影圖片（-）

學python沒多久，主要想用它來做爬蟲，寫api建議用node.js,做全站頁面渲染用php搞定，做爬蟲還得看python: 這裡沒有用python的一些爬蟲框架，先採用python內建模組urllib直接處理頁面抓取，然後解析內容然後直接下載圖片：直接抓取豆瓣圖片

爬取豆瓣電影排行（T250）的資訊

1.分析針對所爬去的Url進行分析：分析網址'?'符號後的引數，第一個引數'start=0'，這個代表頁數，‘=0’時代表第一頁，‘=25’代表第二頁，以此類推。 1.1頁面分析明確要爬取的元素：排名、名字、導演、評語、評分 1.2 頁面程式碼分析

爬蟲]利用xpath爬取豆瓣電影top250（轉）

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import re import requests import lxml.html url

python3爬取豆瓣電影Ajax（獲取動態內容）

利用python3中的urllib模組對豆瓣電影的“喜劇片”進行爬取。因為是動態頁面，我們關注點應在資料來源上，我們知道所有Ajax資料來源都是json，通過Fiddler抓包工具，我們可以獲取相應json資料，提取出相應url，以及post請求的QuerySt

python 爬取豆瓣電影案例

數據 odin span content html temp com str self # conding=utf-8 from parse import parse_url import json class DoubanSpider: def __init

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

python 爬取豆瓣電影評論，並進行詞雲展示及出現的問題解決辦法

本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神短評第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2

Python爬取豆瓣電影的短評資料並進行詞雲分析處理

前言對於爬蟲很不陌生，而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了，今天小編就介紹一下如果爬取豆瓣上面電影影評，以《我不是藥神》為例。基本環境配置版本：Python3.6 系統：Windows 本人對於Python學習建立了一個小小的學習圈子，為各位提供了

python爬取豆瓣電影top250

簡要介紹：爬取豆瓣電影top250上相關電影的資訊，包括影片連結、影片名稱、上映時間、排名、豆瓣評分、導演、劇情簡介。使用：requests、etree、xpath 1、檢視網頁資訊，確定爬取的內容，建立資料庫： class SpiderData(pe

Python爬取豆瓣電影Top250資料

初學pyhton，自己找個練手任務。爬取豆瓣電影top250，儲存為一個DataFrame資料格式，留待分析.(程式碼粗糙，留存） from bs4 import BeautifulSoup from urllib.request import url

用python爬取豆瓣電影TOP250獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。

python小白，第一次爬蟲，如有不對的地方還請多多指出。用BeautifulSoup獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。cur_url：每一頁的地址，例如：https://movie.douban.c

python爬取豆瓣電影資訊

''' 用到的主要知識：(詳情見官方文件） 1. requests 2. BeautifulSoup 3. codecs 4. os ''' #-*-coding:utf-8 import requests from bs4 import Beautif

python 爬取豆瓣電影排行榜TOP250 儲存到資料庫或檔案

本篇文章爬取豆瓣電影排行榜，使用的模組：第三方模組requests，正則模組，資料庫MySQL等 import requests import re import pymysql class DouBan: def __init__(self):

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

python爬蟲實踐——零基礎快速入門（二）爬取豆瓣電影

爬蟲又稱為網頁蜘蛛，是一種程式或指令碼。但重點在於，它能夠按照一定的規則，自動獲取網頁資訊。爬蟲的基本原理——通用框架 1.挑選種子URL； 2.講這些URL放入帶抓取的URL列隊； 3.取出帶抓取的URL，下載並存儲進已下載網頁庫中。此外，講這些URL放入帶抓取UR

python爬蟲（爬取豆瓣電影）_動態網頁,json解釋,中文編碼

from bs4 import BeautifulSoup import requests import json import sys import codecs reload(sys) sys.setdefaultencoding( "utf-8" ) rank

（7）Python爬蟲——爬取豆瓣電影Top250

利用python爬取豆瓣電影Top250的相關資訊，包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容，然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下： #!/us

Scrapy爬蟲（4）爬取豆瓣電影Top250圖片

在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後，本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有：如何利用ImagesPi

python爬蟲（一）爬取豆瓣電影Top250

提示：完整程式碼附在文末一、需要的庫 requests：獲得網頁請求 BeautifulSoup：處理資料，獲得所需要的資料二、爬取豆瓣電影Top250 爬取內容為：豆瓣評分前二百五位電影的名字、主演、

關於html的多行匹配，正則re.S的使用（爬取豆瓣電影短評）

htm detail 3.1 port encoding 關於 color tel frame 參考鏈接：http://www.python(tab).com/html/2017/pythonhexinbiancheng_0904/1170.html(去除括號) 　　　　

使用python爬取豆瓣電影圖片（-）

相關推薦