使用python爬取豆瓣電影圖片(-)
學python沒多久,主要想用它來做爬蟲,寫api建議用node.js,做全站頁面渲染用php搞定,做爬蟲還得看python:
這裡沒有用python的一些爬蟲框架,先採用python內建模組urllib直接處理頁面抓取,然後解析內容然後直接下載圖片:
直接抓取豆瓣圖片api,解析並下載圖片:
# -*- coding: utf-8 -*- import json import urllib import re def getHtml(url): request =url response = urllib.urlopen(request) return response.read() def downloadPic(url,start): source =getHtml(url) s = json.loads(source) imgArr = s['subjects'] index=0 for i in imgArr: #print i['title'],i['url'] ext=re.findall(r'.*\.(\w+)$',i['cover']) if len(ext)>0: ext =ext[0] else: ext='jpg' path='./img/douban_%s_%s.%s' % (start,index,ext) print path f=open(path,'w') f.write(getHtml(i['cover'])) f.close() index=index+1 def downMore(num=0): for i in range(num): p=i*20 url='http://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start='+str(p) print 'url is %s' % url downloadPic(url,i) downMore(13)
直接抓取豆瓣電影頁面原始碼解析並下載圖片:
# -*- coding: utf-8 -*- import urllib import re def getHtml(url): request =url response = urllib.urlopen(request) return response.read() def trimempty(n): return len(n)>12 url='http://movie.douban.com' data= getHtml(url) #print data #imgs= re.findall(r'<a\s+.*href=\'([^\']*)\'\s+.*>.*<\/a>',data) imgs= re.findall(r'<img\s+.*src=\"([^\"]*)\"\s+.*>',data) if len(imgs)>50: imgs = imgs[0:50] else: imgs=imgs imgs = filter(trimempty,imgs) print imgs index=0 for i in imgs: extArr=re.findall(r'.*\.(\w+)$',i) if(len(extArr)>0): ext =extArr[0] else: ext='jpg' path ='./img/%s.%s' % (index,ext) print path f=open(path,'w') f.write(getHtml(i)) f.close() index=index+1
執行程式碼前,先到當前目錄下新建img資料夾,執行程式碼大功告成!
小問題是windows下圖片顯示不正常,linux下完美下載,最後建議小夥伴們不要再windows上跑python了
相關推薦
使用python爬取豆瓣電影圖片(-)
學python沒多久,主要想用它來做爬蟲,寫api建議用node.js,做全站頁面渲染用php搞定,做爬蟲還得看python: 這裡沒有用python的一些爬蟲框架,先採用python內建模組urllib直接處理頁面抓取,然後解析內容然後直接下載圖片: 直接抓取豆瓣圖片
爬取豆瓣電影排行(T250)的資訊
1.分析 針對所爬去的Url進行分析: 分析網址'?'符號後的引數,第一個引數'start=0',這個代表頁數,‘=0’時代表第一頁,‘=25’代表第二頁,以此類推。 1.1頁面分析 明確要爬取的元素 :排名、名字、導演、評語、評分 1.2 頁面程式碼分析
爬蟲]利用xpath爬取豆瓣電影top250(轉)
今天學習了一下xpath 感覺功能非常的強大,但是如果不太懂前端的小夥伴們可能比較吃力,建議看一下html的一些語法結構,程式碼如下: #!/usr/bin/env python import re import requests import lxml.html url
python3爬取豆瓣電影Ajax(獲取動態內容)
利用python3中的urllib模組對豆瓣電影的“喜劇片”進行爬取。因為是動態頁面,我們關注點應在資料來源上,我們知道所有Ajax資料來源都是json,通過Fiddler抓包工具,我們可以獲取相應json資料,提取出相應url,以及post請求的QuerySt
python 爬取豆瓣電影案例
數據 odin span content html temp com str self # conding=utf-8 from parse import parse_url import json class DoubanSpider: def __init
python爬取豆瓣電影Top250的資訊
python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音 閱讀數:50 python爬取豆瓣電影Top250的資訊。 初學,所以程式碼的不夠美觀和精煉。 如果程式碼有錯,請各位讀者在評論區評論,以免誤導其他同學。 (
python 爬取豆瓣電影評論,並進行詞雲展示及出現的問題解決辦法
本文旨在提供爬取豆瓣電影《我不是藥神》評論和詞雲展示的程式碼樣例 1、分析URL 2、爬取前10頁評論 3、進行詞雲展示 1、分析URL 我不是藥神 短評 第一頁url https://movie.douban.com/subject/26752088/comments?start=0&limit=2
Python爬取豆瓣電影的短評資料並進行詞雲分析處理
前言 對於爬蟲很不陌生,而爬蟲最為經典的案例就是爬取豆瓣上面的電影資料了,今天小編就介紹一下如果爬取豆瓣上面電影影評,以《我不是藥神》為例。 基本環境配置 版本:Python3.6 系統:Windows 本人對於Python學習建立了一個小小的學習圈子,為各位提供了
python爬取豆瓣電影top250
簡要介紹: 爬取豆瓣電影top250上相關電影的資訊,包括影片連結、影片名稱、上映時間、排名、豆瓣評分、導演、劇情簡介。 使用:requests、etree、xpath 1、檢視網頁資訊,確定爬取的內容,建立資料庫: class SpiderData(pe
Python爬取豆瓣電影Top250資料
初學pyhton,自己找個練手任務。爬取豆瓣電影top250,儲存為一個DataFrame資料格式,留待分析.(程式碼粗糙,留存) from bs4 import BeautifulSoup from urllib.request import url
用python爬取豆瓣電影TOP250獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。
python小白,第一次爬蟲,如有不對的地方還請多多指出。用BeautifulSoup獲取電影排名、電影名稱、電影別名、電影連結、導演、主演、年份、地點、型別、評分、評價人數、摘要、海報下載地址。cur_url:每一頁的地址,例如:https://movie.douban.c
python爬取豆瓣電影資訊
''' 用到的主要知識:(詳情見官方文件) 1. requests 2. BeautifulSoup 3. codecs 4. os ''' #-*-coding:utf-8 import requests from bs4 import Beautif
python 爬取豆瓣電影排行榜TOP250 儲存到資料庫或檔案
本篇文章爬取豆瓣電影排行榜,使用的模組:第三方模組requests,正則模組,資料庫MySQL等 import requests import re import pymysql class DouBan: def __init__(self):
python爬蟲【例項】爬取豆瓣電影評分連結並圖示()-問題如何爬取電影圖片(解決有程式碼)
這裡只有尾巴,來分析一下確定範圍:如何爬取圖片並下載?參考:http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------
python爬蟲實踐——零基礎快速入門(二)爬取豆瓣電影
爬蟲又稱為網頁蜘蛛,是一種程式或指令碼。 但重點在於,它能夠按照一定的規則,自動獲取網頁資訊。 爬蟲的基本原理——通用框架 1.挑選種子URL; 2.講這些URL放入帶抓取的URL列隊; 3.取出帶抓取的URL,下載並存儲進已下載網頁庫中。此外,講這些URL放入帶抓取UR
python爬蟲(爬取豆瓣電影)_動態網頁,json解釋,中文編碼
from bs4 import BeautifulSoup import requests import json import sys import codecs reload(sys) sys.setdefaultencoding( "utf-8" ) rank
(7)Python爬蟲——爬取豆瓣電影Top250
利用python爬取豆瓣電影Top250的相關資訊,包括電影詳情連結,圖片連結,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區,類別這12項內容,然後將爬取的資訊寫入Excel表中。基本上爬取結果還是挺好的。具體程式碼如下: #!/us
Scrapy爬蟲(4)爬取豆瓣電影Top250圖片
在用Python的urllib和BeautifulSoup寫過了很多爬蟲之後,本人決定嘗試著名的Python爬蟲框架——Scrapy. 本次分享將詳細講述如何利用Scrapy來下載豆瓣電影Top250, 主要解決的問題有: 如何利用ImagesPi
python爬蟲(一)爬取豆瓣電影Top250
提示:完整程式碼附在文末 一、需要的庫 requests:獲得網頁請求 BeautifulSoup:處理資料,獲得所需要的資料 二、爬取豆瓣電影Top250 爬取內容為:豆瓣評分前二百五位電影的名字、主演、
關於html的多行匹配,正則re.S的使用(爬取豆瓣電影短評)
htm detail 3.1 port encoding 關於 color tel frame 參考鏈接:http://www.python(tab).com/html/2017/pythonhexinbiancheng_0904/1170.html(去除括號)