Python爬蟲 —— 抓取美女圖片

阿新 • • 發佈：2018-06-11

In root lxml 取圖 ext time style main HR

代碼如下：

 1 #coding:utf-8
 2 # import datetime
 3 import requests
 4 import os
 5 import sys
 6 from lxml import etree
 7 import codecs
 8 
 9 class Spider:
10     def __init__(self):
11         self.headers = {}
12         self.headers[‘User_Agent‘] = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0 
‘
13         self.headers[‘Referer‘] = ‘http://www.mzitu.com/all/‘
14 
15     def crawl(self, root_url):
16         html_text = requests.get(root_url,headers=self.headers).text
17         html_tree = etree.HTML(html_text)
18         groups = html_tree.xpath("//div[@class=‘main-content‘]//ul[@class=‘archives‘]//a 
")
19         count = 0
20         print "開始抓取："
21         for group in groups:
22             title = group.text
23             groupUrl = group.get(‘href‘)
24             print "正在抓取組圖："+title
25             dirpath = self.makDir(title)   #獲取標題，並以標題為名字創建文件夾
26             self.getGroup(groupUrl,dirpath)    #
 
27             count = count+1
28             if count>=5:
29                 print "抓取完成……"
30                 os._exit(0)
31 
32     def makDir(self,dirname):
33         dirpath = os.path.join(u‘E:\學習資料‘,dirname)
34         if not os.path.exists(dirpath):
35             os.makedirs(dirpath)
36         return dirpath
37 
38     def getGroup(self,groupUrl,dirpath):
39         self.headers[‘Referer‘] = groupUrl
40         html_text = requests.get(groupUrl, headers=self.headers).text
41         html_tree = etree.HTML(html_text)
42         maxPage = html_tree.xpath("//div[@class=‘pagenavi‘]//span")[-2].text    #獲取改組圖的張數
43         for page in range(1,int(maxPage)+1):    #獲取每一張圖的所在頁面
44             pageUrl = groupUrl + ‘/‘ + str(page)    #拼接頁面url
45             self.getPage(pageUrl,page,dirpath)   #訪問該頁面
46 
47     def getPage(self, pageUrl,page,dirpath):
48         self.headers[‘Referer‘] = pageUrl
49         page_text = requests.get(pageUrl, headers=self.headers).text  #請求該圖所在的頁面
50         page_tree = etree.HTML(page_text)
51         imageurl = page_tree.xpath("//div[@class=‘main-image‘]//img")[0].get(‘src‘)    #獲取圖片url
52         image = requests.get(imageurl, headers=self.headers).content                    #請求獲取圖片
53         self.saveImage(image,page,dirpath)
54 
55     def saveImage(self,image,page,dirpath):
56         imagepath = os.path.join(dirpath, str(page) + u‘.jpg‘)
57         file = codecs.open(imagepath, ‘wb‘)
58         file.write(image)
59         file.close()
60 
61 if __name__ == ‘__main__‘:
62     reload(sys)
63     sys.setdefaultencoding(‘utf-8‘)
64     Mzitu = Spider()
65     Mzitu.crawl(‘http://www.mzitu.com/all‘)

Python爬蟲 —— 抓取美女圖片

In root lxml 取圖 ext time style main HR 代碼如下： 1 #coding:utf-8 2 # import datetime 3 import requests 4 import os 5 import sys

Python爬蟲 —— 抓取美女圖片（Scrapy篇）

parse color 爬蟲 select 尺度 dex -i www 模塊雜談：之前用requests模塊爬取了美女圖片，今天用scrapy框架實現了一遍。（圖片尺度確實大了點，但老衲早已無戀紅塵，權當觀賞哈哈哈） Item: # -*- codi

python爬蟲-爬取美女圖片

當你發現某個網站上有大量的美女圖片，又非常想看，怎麼辦，網頁上看？每次看的時候都得載入吧！No，你可以把這些圖片都儲存到本地，然後，在你想看的時候就可以隨時看了，哈哈！多的不說。下面就來上程式碼： 1,匯入庫檔案: # -*- coding:utf-8 -*- # 通過request

python 爬蟲抓取頁面圖片

# -*- coding: utf-8 -*- # path: D:/Python27/img/jpg.py import re import urllib import os #獲取html頁面的內容 def getHtml(url): cont = ur

python 爬蟲, 抓取百度美女吧圖片

# ----2018-7-15 ------世界盃總決賽 import requests from lxml import etree import re class TiBa_Image(object): # 建立同意方法 def __init__(

Python爬蟲--抓取單一頁面上的圖片文件學習

python 爬蟲 #！/usr/bin/python import sys #正則表達式庫 import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() ret

python爬蟲-- 抓取網頁、圖片、文章

零基礎入門Python，給自己找了一個任務，做網站文章的爬蟲小專案，因為實戰是學程式碼的最快方式。所以從今天起開始寫Python實戰入門系列教程，也建議大家學Python時一定要多寫多練。目標 1，學習Python爬蟲 2，爬取新聞網站新聞列表 3，爬取圖片 4，把爬取到的資料存在本地

python學習(24) 使用Xpath解析並抓取美女圖片

Xpath最初用來處理XML解析，同樣適用於HTML文件處理。相比正則表示式更方便一些 Xpath基本規則 nodename 表示選取nodename 節點的所有子節點 / 表示當前節點的直接子節點 // 表示當前節點的子節點和孫子節點 . 表

第一個Python爬蟲-抓取煎蛋網上圖片

背景作為一個計算機基礎薄弱的電氣工程師，廖大的教程看到常用的內建模組時，看的頭大，特別是看到HTMLParser時，已宛如天書了。這時作為一個初學者的劣勢就暴露出來了，我不知道哪部分知識是理解這些模組的前置條件，即使知道是哪部分知識，但不知道該理解到什麼程度才能解決當前的問題。個人建議

Python-爬蟲-抓取頭條街拍圖片-1.1

requested 所有圖片 parse 信息保存 creat type 一個 fse cursor 下面實例是抓取頭條圖片信息，只是抓取了查詢列表返回的json中image，大圖標，由於該結果不會包含該鏈接詳情頁的所有圖片列表；因此這裏抓取不全；後續有時間在完善； 1、抓

Python爬蟲抓取女演員圖片

介紹利用Python爬蟲抓取日本女演員照片。遇到的最大問題就是該網站用了cloudflare以及其他的策略禁止爬蟲爬取資訊，導致urllib自帶的urlretrieve函式無法使用，而其他部分都較為

python爬蟲抓取圖片

關於python爬蟲一直以來是很著名的，林林總總也有很多方法，大致起來也就是一個原理。下面我來介紹一下我用的BeautifulSoup獲取的，正則獲取也很簡單，在這裡只說一下BeautifulSoup方法，使用伯樂線上網站作為參考的例子程式碼如下 #encoding

Python爬蟲抓取煎蛋(jandan.net)無聊圖

下載 logs start input req com read ref color 1 #!/usr/bin/python 2 #encoding:utf-8 3 ‘‘‘ 4 @python 3.6.1 5 @author: [email prote

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

python爬蟲抓取zabbix監控圖，並發郵件

python 抓取最近十九大非常煩，作為政府網站維護人員，簡直是夜不能寐。各種局子看著你，內保局，公安部，360，天融信，華勝天成，中央工委，政治委員會...360人員很傻X，作為安全公司，竟然不能抓到XX網站流量，在我們機房放的探針更是搞笑，讓我們手工上報流量數據。白天還行，晚上怎麽辦？給他寫個腳

Python爬蟲抓取純靜態網站及其資源

遇到的需求前段時間需要快速做個靜態展示頁面，要求是響應式和較美觀。由於時間較短，自己動手寫的話也有點麻煩，所以就打算上網找現成的。中途找到了幾個頁面發現不錯，然後就開始思考怎麼把頁面給下載下來。由於之前還沒有了解過爬蟲，自然也就沒有想到可以用爬蟲來抓取網頁內容。所以我採取的辦法

Python爬蟲爬取網上圖片原始碼，可用來製作深度學習資料集

這次利用python設計一個爬取百度圖片上的圖片的原始碼，其中利用的是python的urllib，如果沒有裝的，可以使用Anconda在環境裡進行安裝或者 pip install urllib 這兩種方式都可以安裝，長話短說，上圖吧，點選執行後，輸入你要下載的圖片型別：比如，熊貓？美女？

用python爬蟲抓取視訊網站所有電影

執行環境 IDE丨pycharm 版本丨Python3.6 系統丨Windows ·實現目的與思路· 目的：實現對騰訊視訊目標url的解析與下載，由於第三方vip解析，只提供線上觀看，隱藏想實現對目標視訊的下載思路：首先拿到想要看的騰訊電影url,通過第三方vip視訊解析網站進

Python爬蟲-抓取divnil動漫妹子圖

目標網站 https://divnil.com 首先看看這網站是怎樣載入資料的; 開啟網站後發現底部有下一頁的按鈕，ok，爬這個網站就很簡單了; 學習Python中有不明白推薦加入交流群

scrapy-redis分散式爬蟲爬取美女圖片

背景：家裡網速慢（500kb左右，哎~），網站都是大圖，載入好慢好慢，每每夜深人靜訪問的時候一等就是一分鐘，急啊，索性，直接爬到本地，想怎麼看怎麼看。爬取目標：（你懂得） url: h t t p s : / / w w w . j p x g y w . c o

Python爬蟲 —— 抓取美女圖片

相關推薦