python爬取美空網女神圖片，小心記憶體走火

阿新 • • 發佈：2018-12-12

爬蟲分析

首先，我們已經爬取到了N多的使用者個人主頁，我通過連結拼接獲取到了

www.moko.cc/post/da39db…

在這個頁面中，咱們要找幾個核心的關鍵點，發現平面拍攝點選進入的是圖片列表頁面。接下來開始程式碼走起。

獲取所有列表頁面

我通過上篇部落格已經獲取到了70000（實際測試50000+）使用者資料，讀取到python中。

這個地方，我使用了一個比較好用的python庫pandas，大家如果不熟悉，先模仿我的程式碼就可以了，我把註釋都寫完整。

import pandas as pd # 使用者圖片列表頁模板 user_list_url = "http://www.moko.cc/post/{}/list.html" # 存放所有使用者的列表頁 user_profiles = [] def read_data(): # pandas從csv裡面讀取資料 df = pd.read_csv("./moko70000.csv") #檔案在本文末尾可以下載 # 去掉暱稱重複的資料 df = df.drop_duplicates(["nikename"]) # 按照粉絲數目進行降序 profiles = df.sort_values("follows", ascending=False)["profile"] for i in profiles: # 拼接連結 user_profiles.append(user_list_url.format(i)) if __name__ == '__main__': read_data() print(user_profiles) 複製程式碼

資料已經拿到，接下來我們需要獲取圖片列表頁面，找一下規律，看到重點的資訊如下所示，找對位置，就是正則表示式的事情了。

快速的編寫一個正則表示式 <p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p> 引入re,requests模組

import requests import re 複製程式碼 # 獲取圖片列表頁面 def get_img_list_page(): # 固定一個地址，方便測試 test_url = "http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html" response = requests.get(test_url,headers=headers,timeout=3) page_text = response.text pattern = re.compile('<p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p>') # 獲取page_list page_list = pattern.findall(page_text) 複製程式碼

執行得到結果

[('/post/da39db43246047c79dcaef44c201492d/category/304475/1.html', '85'), ('/post/da39db43246047c79dcaef44c201492d/category/304476/1.html', '2'), ('/post/da39db43246047c79dcaef44c201492d/category/304473/1.html', '0')] 複製程式碼

繼續完善程式碼，我們發現上面獲取的資料，有"0"的產生，需要過濾掉

# 獲取圖片列表頁面 def get_img_list_page(): # 固定一個地址，方便測試 test_url = "http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html" response = requests.get(test_url,headers=headers,timeout=3) page_text = response.text pattern = re.compile('<p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p>') # 獲取page_list page_list = pattern.findall(page_text) # 過濾資料 for page in page_list: if page[1] == '0': page_list.remove(page) print(page_list) 複製程式碼

獲取到列表頁的入口，下面就要把所有的列表頁面全部拿到了,這個地方需要點選下面的連結檢視一下

www.moko.cc/post/da39db…

本頁面有分頁，4頁，每頁顯示資料 4*7=28 條所以，基本計算公式為 math.ceil(85/28) 接下來是連結生成了，我們要把上面的連結，轉換成

http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/1.html http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/2.html http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/3.html http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/4.html 複製程式碼 page_count = math.ceil(int(totle)/28)+1 for i in range(1,page_count): # 正則表示式進行替換 pages = re.sub(r'\d+?\.html',str(i)+".html",start_page) all_pages.append(base_url.format(pages)) 複製程式碼

當我們回去到足夠多的連結之後，對於初學者，你可以先幹這麼一步，把這些連結儲存到一個csv檔案中，方便後續開發

# 獲取所有的頁面 def get_all_list_page(start_page,totle): page_count = math.ceil(int(totle)/28)+1 for i in range(1,page_count): pages = re.sub(r'\d+?\.html',str(i)+".html",start_page) all_pages.append(base_url.format(pages)) print("已經獲取到{}條資料".format(len(all_pages))) if(len(all_pages)>1000): pd.DataFrame(all_pages).to_csv("./pages.csv",mode="a+") all_pages.clear() 複製程式碼

讓爬蟲飛一會，我這邊拿到了80000+條資料

好了，列表資料有了，接下來，我們繼續操作這個資料，是不是感覺速度有點慢，程式碼寫的有點LOW，好吧，我承認這是給新手寫的其實就是懶，我回頭在用一篇文章把他給改成面向物件和多執行緒的

我們接下來基於爬取到的資料再次進行分析

例如 www.moko.cc/post/nimusi… 這個頁面中，我們需要獲取到，紅色框框的地址，為什麼要或者這個？因為點選這個圖片之後進入裡面才是完整的圖片列表。

我們還是應用爬蟲獲取幾個步驟

迴圈我們剛才的資料列表
抓取網頁原始碼
正則表示式匹配所有的連結

def read_list_data(): # 讀取資料 img_list = pd.read_csv("./pages.csv",names=["no","url"])["url"] # 迴圈操作資料 for img_list_page in img_list: try: response = requests.get(img_list_page,headers=headers,timeout=3) except Exception as e: print(e) continue # 正則表示式獲取圖片列表頁面 pattern = re.compile('<a hidefocus="ture" alt="(.*?)".*? href="(.*?)".*?>VIEW MORE</a>') img_box = pattern.findall(response.text) need_links = [] # 待抓取的圖片資料夾 for img in img_box: need_links.append(img) # 建立目錄 file_path = "./downs/{}".format(str(img[0]).replace('/', '')) if not os.path.exists(file_path): os.mkdir(file_path) # 建立目錄 for need in need_links: # 獲取詳情頁面圖片連結 get_my_imgs(base_url.format(need[1]), need[0]) 複製程式碼

上面程式碼幾個重點地方

pattern = re.compile('<a hidefocus="ture" alt="(.*?)".*? href="(.*?)".*?>VIEW MORE</a>') img_box = pattern.findall(response.text) need_links = [] # 待抓取的圖片資料夾 for img in img_box: need_links.append(img) 複製程式碼

獲取到抓取目錄，這個地方，我匹配了兩個部分，主要用於建立資料夾建立資料夾需要用到 os 模組，記得匯入一下

# 建立目錄 file_path = "./downs/{}".format(str(img[0]).replace('/', '')) if not os.path.exists(file_path): os.mkdir(file_path) # 建立目錄 複製程式碼

獲取到詳情頁面圖片連結之後，在進行一次訪問抓取所有圖片連結

#獲取詳情頁面資料 def get_my_imgs(img,title): print(img) headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"} response = requests.get(img, headers=headers, timeout=3) pattern = re.compile('<img src2="(.*?)".*?>') all_imgs = pattern.findall(response.text) for download_img in all_imgs: downs_imgs(download_img,title) 複製程式碼

最後編寫一個圖片下載的方法,所有的程式碼完成，圖片儲存本地的地址，用的是時間戳。

def downs_imgs(img,title): headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"} response = requests.get(img,headers=headers,timeout=3) content = response.content file_name = str(int(time.time()))+".jpg" file = "./downs/{}/{}".format(str(title).replace('/','').strip(),file_name) with open(file,"wb+") as f: f.write(content) print("完畢") 複製程式碼

執行程式碼，等著收圖

程式碼執行一下，發現報錯了

原因是路徑的問題，在路徑中出現了...這個特殊字元，我們需要類似上面處理 / 的方式處理一下。自行處理一下吧。

資料獲取到，就是這個樣子的

程式碼中需要完善的地方

程式碼分成了兩部分，並且是面向過程的，非常不好，需要改進
網路請求部分重複程式碼過多，需要進行抽象，並且加上錯誤處理，目前是有可能報錯的
程式碼單執行緒，效率不高，可以參照前兩篇文章進行改進
沒有模擬登入，最多隻能爬取6個圖片，這也是為什麼先把資料儲存下來的原因，方便後期直接改造

python爬取美空網女神圖片，小心記憶體走火

爬蟲分析首先，我們已經爬取到了N多的使用者個人主頁，我通過連結拼接獲取到了 www.moko.cc/post/da39db… 在這個頁面中，咱們要找幾個核心的關鍵點，發現平面拍攝點選進入的是圖片列表頁面。接下來開始程式碼走起。獲取所有列表頁面我

Python爬取美空網未登入圖片

本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，

python爬取煎蛋網妹子圖，已解密圖片~~~~~

本來想爬一波無聊圖，唉，竟然加密了。。。。還好是base64 不說了，程式碼獻上 2018.12.14 有效。。。。。 import requests from bs4 import BeautifulSoup import base64,time base64_l

爬取美團網美食資料，看北京上海都愛吃些啥

資料爬取三步曲之前方有坑工作需求需要採集 OTA 網站的美食資料，某個城市的飯店型別情況等。對於老饕來說這不算個事，然而最後的結果是午飯晚飯都沒有時間去吃了……情況如下： Chrome F12 直接定位 get 請求，response 的結

python爬取美團--鮮花商家資訊，設定代理池

代理池設定：這裡代理ip從快代理那獲取，新使用者有4小時免費測試時間。從http://dps.kdlapi.com/api/getdps/中獲取我們的ip代理池，根據使用者名稱密碼最後生成proxy_auth代理池。 proxy_auth = [] usernam

Python爬取千圖網PS素材圖片

宣告：僅用於學習交流，請勿用於任何商業用途！感謝大家！需求：在千圖網http://www.58pic.com中的某一板塊中，將一定頁數的高清圖片素材爬取到一個指定的資料夾中。分析：以數碼電器板塊為例檢視該板塊的每一頁的URL：

python爬取百度搜索圖片

知乎需要 with 異常 mage 不足 request height adr 在之前通過爬取貼吧圖片有了一點經驗，先根據之前經驗再次爬取百度搜索界面圖片廢話不說，先上代碼 #!/usr/bin/env python # -*- coding: utf-8 -*- #

python爬蟲-20行代碼爬取王者榮耀所有英雄圖片，小白也輕輕松松

需要 tis tca wcf 爬取 html eas request 有用 1.環境 python3.6 需要用到的庫： re、os、requests 2.簡介王者榮耀可以算得上是比較受歡迎的手遊之一了，應該有不少的人都入坑過農藥，我們今天的目的就是要爬取王者榮耀的高

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

下午不知道吃什麼？用Python爬取美團外賣評論幫你選餐！

一、介紹朋友暑假實踐需要美團外賣APP評論這一份資料，一開始我想，這不就抓取網頁原始碼再從中提取資料就可以了嗎，結果發現事實並非如此，情況和之前崔大講過的分析Ajax來抓取今日頭條街拍美圖類似，都是通過非同步載入的方式傳輸資料，不同的是這次的是通過JS傳輸，其他的基本思路基本一致，希望那些資料

Python-爬取校花網視訊(單執行緒和多執行緒版本)

一、參考文章 python爬蟲爬取校花網視訊，單執行緒爬取爬蟲----爬取校花網視訊，包含多執行緒版本上述兩篇文章都是對校花網視訊的爬取，由於時間相隔很久了，校花網上的一些視訊已經不存在了，因此上

python爬取拉勾網之selenium

重點程式碼解釋： 1.呼叫lxml的etree實現xpath方法呼叫，xpath相對正則比較簡單，可以不在使用Beauitfulsoup定位 from lxml import etree 2.介面的可視話與否，對於你的執行資源只能用減少 opt=webdri

python爬取圖蟲網相簿

創作緣由這幾天發現了一個很好的圖片網站，圖蟲但是裡面的圖片大部分有版權，要麼需要付費下載，要麼需要關注作者才能下載，而且在圖片上不能右擊，這讓我們下載圖片有了很大的問題，為了解決這個問題，上網搜尋了許多圖蟲網的爬蟲，發現都是千篇一律，功能都是搜尋關鍵字後下載，而且程式碼神似，估計

python爬取拉勾網網際網路大資料職業情況

爬取拉勾網資訊資料處理製圖所需知識只有一點點（畢竟是個小白）： requests基礎部分 json pyecharts wordcloud 接下來開始敲程式碼了，程式碼分成了3個部分：爬取、製圖、生成詞雲爬取部分：首先要說明的是，拉勾網有反爬

python爬取美團所有結婚商家(包括詳情)

本文章主要介紹爬取美團結婚欄目所有商家資訊(電話) 第一步：爬取區域分析鞍山結婚頁面 https://as.meituan.com/jiehun/ 分析重慶結婚頁面 https://cq.meituan.com/jiehun/ 分析可得：url基本相同，我們只需爬取美團

用python爬取知乎中的圖片

首先，我們檢視一下知乎的robots協議。 User-agent: * Disallow: / 知乎是不允許爬取其根目錄的。但是，我們只是用於實驗，而且訪問頻率和正常訪問差距不大，所以可以爬取。先明確目的：對手動輸入的網址進行解析把爬取到的圖片儲存到指定目

python爬取虎嗅網資料

#!/usr/bin/env python # -*- coding:utf-8 -*- import requests import pymongo from bs4 import BeautifulSoup client = pymongo.MongoClient(host='l

用selenium以外的方法實現爬取海報時尚網熱門圖片

廢話不多說, 直接上程式碼! ! ! import json import os import time from urllib.request import urlretrieve import requests import datetime import urllib.parse

Python爬取拉勾網招聘資訊存入資料庫

先抓包分析我們想要獲取的資料，很明顯都是動態資料，所以直接到Network下的XHR裡去找，這裡我們找到具體資料後，就要去尋分析求地址與請求資訊了。還有需要提交的表單資訊分析完畢之後，我們就可以開始寫我們的爬蟲專案了。一.編寫Itemitem編寫比較簡單# 拉鉤職位資訊 cl

python爬取美空網女神圖片，小心記憶體走火

相關推薦