第一個python爬蟲——保存淘寶mm圖片

阿新 • • 發佈：2017-11-29

gen with open 代號 [] 文件夾暫時觀察 python基礎意義

第一次算是成功的爬蟲小代碼，花了挺長時間的。
目的：
　　獲取淘寶mm圖片
現存問題：
　　無法獲取動態加載的圖片，只能得到打開網頁後存在的圖片
　　雖然更換代理仍禁止訪問
收獲：

　對爬蟲的思路相對來說更清晰了——想爬什麽，這東西有什麽規律，怎麽體現在網頁上的，如何抓取

　　增強了對python基礎知識的掌握 1，文件寫入的方法 2，json被加載時所需要的條件 3，列表，元組，字典
　　　　　　　　　　　　　　　　　　4，網絡請求的基本操作 5，基礎的應對反爬機制的方法


　　


  1 import json
  2 import urllib.response
  3 import  urllib.request
 
  4 import re
  5 import random
  6 from json import loads
  7 import os
  8 
  9 #請求頭數組
 10 headerstr = ‘‘‘Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1
 11         Opera/9.80(Macintosh;IntelMacOSX10.6.8;U;en)Presto/2.8.131Version/11.11
 12         Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;360SE) 
‘‘‘
 13 #獲取請求頭
 14 def headers():
 15     header = headerstr.split(‘\n‘)
 16     length = len(header)
 17     return header[random.randint(0,length-1)]
 18 
 19 #返回基本信息和user_id
 20 def getUrlList():
 21     req = urllib.request.Request(‘https://mm.taobao.com/tstar/search/tstar_model.do?_input_charset=utf-8 
‘)
 22     req.add_header(‘User-Agent‘, headers())
 23     html = urllib.request.urlopen(req).read().decode(‘gbk‘)
 24 
 25     #加載json，html解碼後才能加載到json中
 26     # 註：目前只知道{}內的可以轉成json，其余情況未知
 27     # 註：[]是列表,()是元組，{}是字典
 28     json = loads(html)
 29 
 30     return json[‘data‘][‘searchDOList‘]
 31 
 32 
 33 #獲取mm相冊的代號所在的url
 34 def getAlbumCode(userId):
 35     req = urllib.request.Request(‘https://mm.taobao.com/self/album/open_album_list.htm?_charset=utf-8&user_id%%20=%s‘ % userId)
 36     req.add_header(‘User-Agent‘, headers())
 37     html = urllib.request.urlopen(req).read().decode(‘gbk‘)
 38     reg = r‘class="mm-first" href="//(.*?)"‘
 39 
 40     return re.findall(reg, html)[::2]
 41 
 42 
 43 #獲取mm相冊的代號
 44 def getAlbumInner(code):
 45     reg = ‘\d+‘
 46     result= re.findall(reg,code)
 47     return result[1]
 48 
 49 
 50 #獲取圖片地址並保存圖片到個人文件夾
 51 def getpic(userId,album_id,Album_num,content):
 52     #因為下滑可以加載圖片，準備將page=1,2,3...的情況做出來，但目前而言由於未知的錯誤而無法進入page=2的情況，所以暫時擱淺，只選了page=1的情況
 53     #這裏的page無多少意義，可以忽略
 54     page=1
 55 
 56     #index表示下面for循環中在json[‘picList‘]的列表中每個元素的指針
 57     index = 0
 58 
 59     req = urllib.request.Request(‘https://mm.taobao.com/album/json/get_album_photo_list.htm?user_id=%s&album_id=%s&page=1‘%(userId,album_id))
 60     req.add_header(‘User-Agent‘, headers())
 61     html = urllib.request.urlopen(req,timeout=5).read(
 62     ).decode(‘gbk‘)
 63     json = loads(html)
 64 
 65     #json[‘picList‘]是一個列表，要通過循環遍歷出來每個元素
 66     for it in json[‘picList‘]:
 67         index += 1
 68 
 69         #通過比較url發現大圖與小圖之間的差距在於290與620，所以直接替換就可以啦
 70         picUrl=re.sub(‘290‘,‘620‘,it[‘picUrl‘])
 71 
 72         #獲得的url無法直接寫入文件，觀察後發現直接加http:就行了
 73         pic = ‘http:‘+picUrl
 74 
 75         #open打開的是將要寫入的文件的絕對路徑或者說是相對路徑
 76         contex = urllib.request.urlopen(pic).read()
 77         with open(content+"\\"+str(Album_num)+‘-‘+str(page)+‘-‘+str(index)+".jpg",‘wb‘) as f:
 78 
 79             f.write(contex)
 80 
 81 #先加個代理
 82 proxy_support = urllib.request.ProxyHandler({‘http‘: ‘124.93.87.140:80‘})
 83 opener = urllib.request.build_opener(proxy_support)
 84 urllib.request.install_opener(opener)
 85 
 86 json = getUrlList()
 87 for i in json:
 88     userId = i[‘userId‘]
 89     realName = i[‘realName‘]
 90     city = i[‘city‘]
 91     height = i[‘height‘]
 92     weight = i[‘weight‘]
 93     print  (u‘發現一位美女，她的名字叫：‘ +realName,  ‘身高：‘+height + ‘m‘,‘體重：‘+ weight + ‘kg‘,u‘她現在的居住在-‘ + city)
 94     # 根據mm名字創建文件夾
 95     content = ‘E:\\demo\\‘ + realName
 96     if not os.path.exists(content):
 97         os.mkdir(content)
 98         print(‘正在為‘+realName+‘創建文件夾...‘)
 99     #mm的第Album_num個相冊
100     Album_num = 0
101     print(‘正在為你悄咪咪的保存她的圖片...‘)
102     for j in getAlbumCode(userId):
103         code = j
104         album_id=getAlbumInner(code)
105         Album_num+=1
106         getpic(userId, album_id, Album_num,content)
107     print(realName+‘的圖片已經保存成功啦！‘)

第一個python爬蟲——保存淘寶mm圖片

gen with open 代號 [] 文件夾暫時觀察 python基礎意義第一次算是成功的爬蟲小代碼，花了挺長時間的。目的：　　獲取淘寶mm圖片現存問題：　　無法獲取動態加載的圖片，只能得到打開網頁後存在的圖片　　雖然更換代理仍禁止訪問收獲：　　　對爬蟲的思路

Python爬蟲(三)爬淘寶MM圖片

name os.path app dir util mozilla user mac baseurl 直接上代碼: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string impo

第一個Python爬蟲-抓取煎蛋網上圖片

背景作為一個計算機基礎薄弱的電氣工程師，廖大的教程看到常用的內建模組時，看的頭大，特別是看到HTMLParser時，已宛如天書了。這時作為一個初學者的劣勢就暴露出來了，我不知道哪部分知識是理解這些模組的前置條件，即使知道是哪部分知識，但不知道該理解到什麼程度才能解決當前的問題。個人建議

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

我的第一個python爬蟲：爬取豆瓣top250前100部電影

爬取豆瓣top250前100部電影 1 # -*-coding=UTF-8 -*- 2 3 import requests 4 from bs4 import BeautifulSoup 5 6 headers = {'User-Agent':'Moz

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

python爬蟲爬取淘寶搜尋頁面商品資訊資料

主要使用的庫： requests:爬蟲請求並獲取原始碼 re：使用正則表示式提取資料 json:使用JSON提取資料 pandas：使用pandans儲存資料以下是原始碼： #!coding=utf-8 import requests import re import

python爬蟲爬取淘寶，羅蘭電鋼琴和雅馬哈電鋼琴（參考崔大）

淘寶網上有很多商品，這些商品的資訊就是一個很不錯的資料來源，於是我參考資料後依葫蘆畫瓢弄了一個爬蟲程式來爬一爬夢寐以求的電鋼琴。宣告一下：電鋼琴和電子琴是兩種不同的琴，我在正則表示式裡面設定了只要含有電子琴這個詞語一律不抓取。同時淘寶商家的很多商品欄都是重複的，不加篩選前

使用python爬蟲——爬取淘寶圖片和知乎內容

本文主要內容：目標：使用python爬取淘寶圖片；使用python的一個開源框架pyspider（非常好用，一個國人寫的）爬取知乎上的每個問題，及這個問題下的所有評論最簡單的爬蟲——如下python程式碼爬取淘寶上模特圖片爬

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(ur

我的第一個Python爬蟲——談心得

2018年3月27日，繼開學以來，開了軟體工程和資訊系統設計，想來想去也沒什麼好的題目，乾脆就想弄一個實用點的，於是產生了做“學生服務系統”想法。相信各大高校應該都有本校APP或超級課程表之類的軟體，在資訊化的時代能快速收集/查詢自己想要的諮詢也是種很重要的能力

python爬蟲爬取淘寶網頁資料

O、requests 和 re 庫的介紹 requests庫是一個小型好用的網頁請求模組，可用於網頁請求，常用來編寫小型爬蟲安裝requests可以使用pip命令：在命令列輸入 pip install requests re庫是正則表示式庫，是p

【Python】抓取淘寶數據庫月報，發送郵件，本地存檔，保存元信息

epo 平臺如果更改 config 查詢 color into all 用途定期抓取淘寶數據庫月報發送郵件，保存到本地，最好是git中發送元數據到mysql中，後期可以做成接口集成到運維平臺中，便於查詢使用方式 # 下載（必須） cd ~ &&

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

Java程式設計師的第一個Python小程式：京東暢銷書榜爬蟲

畢業後的5年多時間裡一直在Java的生態體系裡遊走，很少觸碰其他非Java技術棧。職業安全感隱隱的警告我不能一直逗留在自己的舒適區裡，不能被大時代拋棄。時下最火的莫過於AI，而AI時代則帶火了AI第一語言Python，那就學學Python。學習一門新技術的最佳

關於Python爬蟲爬淘寶mm詳細教程+存入資料庫

具體思路：進入頁面我們會看見很多圖片，其實每張圖片對應一個URL，然後點選一張圖片我們就會進入到對應主頁，主頁裡面有大量的圖片，我們首先就是獲取到當前頁面的所有url，然後進入每個url獲得對應的每個人的所有圖片。首先我們進入該網頁，直接F12進入除錯模式，（如果進入不

Python爬蟲實戰之抓取淘寶MM照片（一）

背景 Python爬蟲系列教程的一次實戰，然而淘寶進行過頁面改版，現在已經沒有淘寶MM這個版面，取而代之的是淘女郎。改版後，頁面是使用JS渲染的，並不能直接通過url來切換頁碼。該系列教程後續講到

python網路爬蟲學習(六)利用Pyspider+Phantomjs爬取淘寶模特圖片

一.新的問題與工具平時在淘寶上剁手的時候，總是會看到各種各樣的模特。由於自己就讀於一所男女比例三比一的工科院校……寫程式碼之餘看看美女也是極好的放鬆方式。但一張一張點右鍵–另存為又顯得太過麻煩而且不切實際，畢竟圖片太多了。於是，我開始考慮用萬能的pyth

第一章第一個Python程序與數據存儲

gui .exe 研究所測試程序設計語言很快 ice 調試 public 第一節 Python概述 1. 什麽是Python Python是一種解釋型、面向對象、動態數據類型的高級程序設計語言。由Guido van Rossum與1989年發明，第一個公開發行

Python開發學習寫出第一個Python程序

Python編程語言 Python開發學習目標：了解Python，了解Python的特征，了解Python的應用，掌握Linux下Python開發環境的搭建，理解Windows下Python環境搭建，寫出第一個Python程序。什麽是Python 一種解釋型的、面向對象的、帶有動態語義

第一個python爬蟲——保存淘寶mm圖片

相關推薦