Python 豆瓣mv爬取
阿新 • • 發佈:2018-07-21
網址 .com 路徑 pan code lsi for .get pytho
爬取網址:https://www.dbmeinv.com/ 豆瓣mv(現已更名)
註:自制力不好的同學,先去準備營養快線!
import requests from bs4 import BeautifulSoup import urllib.request # 按照序號命名 x = 0 #獲取圖片 def getGrilsImg(page = 1): response = requests.get("https://www.dbmeinv.com/?pager_offset={}".format(page)) # 獲取網頁 html = response.text# 獲取對象 解析網頁 ‘html.parser‘為解析方式,還有一種為lxml soup = BeautifulSoup(html, ‘html.parser‘) # 找到img標簽 返回一個列表 girl = soup.find_all(‘img‘) global x for i in girl: # 通過提取img標簽中的src屬性值,獲取src路徑 imgsrc = i.get(‘src‘) # 記得新建images文件夾 urllib.request.urlretrieve(imgsrc, ‘./images/%d.jpg‘%x) x += 1 print("正在下載第%d張"%x) # 1<= x < 11 下載前十頁 for i in range(1,11): print("正在下載第{}頁圖片".format(i)) getGrilsImg(i)
Python 豆瓣mv爬取