Python 爬蟲入門之爬取妹子圖

阿新 • • 發佈：2018-11-01

Python 爬蟲入門之爬取妹子圖

來源：李英傑連結：

https://segmentfault.com/a/1190000015798452

聽說你寫程式碼沒動力？本文就給你動力，爬取妹子圖。如果這也沒動力那就沒救了。

GitHub 地址:

https://github.com/injetlee/Python/blob/master/%E7%88%AC%E8%99%AB%E9%9B%86%E5%90%88/meizitu.py

爬蟲成果

當你執行程式碼後,資料夾就會越來越多，如果爬完的話會有2000多個資料夾，20000多張圖片。不過會很耗時間，可以在最後的程式碼設定爬取頁碼範圍。

本文目標

1. 熟悉 Requests 庫，Beautiful Soup 庫

2. 熟悉多執行緒爬取

3. 送福利，妹子圖

網站結構

我們從 http://meizitu.com/a/more_1.html 這個連結進去，介面如圖一所示

圖一

可以看到是一組一組的套圖，點選任何一組圖片會進入到詳情介面，如圖二所示

圖二

可以看到圖片是依次排開的，一般會有十張左右的圖片。

實現思路

看了介面的結構，那麼我們的思路就有了。

1. 構造 url 連結，去請求圖一所示的套圖列表介面，拿到每一個頁面中的套圖列表。

2. 分別進入每個套圖中去，下載相應的圖片。

程式碼說明

1. 下載介面的函式,利用 Requests 很方便實現。

def download_page(url):
   '''
   用於下載頁面
   '''
   headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
   r = requests.get(url, headers=headers)
   r.encoding = 'gb2312'
   return r.text

2. 獲取圖一所示的所有套圖列表,函式中 link 表示套圖的連結，text表示套圖的名字

def get_pic_list(html):
   '''
   獲取每個頁面的套圖列表,之後迴圈呼叫get_pic函式獲取圖片
   '''
   soup = BeautifulSoup(html, 'html.parser')
   pic_list = soup.find_all('li', class_='wp-item')
   for i in pic_list:
       a_tag = i.find('h3', class_='tit').find('a')
       link = a_tag.get('href')  # 套圖連結
       text = a_tag.get_text()   # 套圖名字
       get_pic(link, text)

3. 傳入上一步中獲取到的套圖連結及套圖名字,獲取每組套圖裡面的圖片,並儲存,我在程式碼中註釋了。

def get_pic(link, text):
   '''
   獲取當前頁面的圖片,並儲存
   '''
   html = download_page(link)  # 下載介面
   soup = BeautifulSoup(html, 'html.parser')
   pic_list = soup.find('div', id="picture").find_all('img')  # 找到介面所有圖片
   headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
   create_dir('pic/{}'.format(text))
   for i in pic_list:
       pic_link = i.get('src')  # 拿到圖片的具體 url
       r = requests.get(pic_link, headers=headers)  # 下載圖片，之後儲存到檔案
       with open('pic/{}/{}'.format(text, pic_link.split('/')[-1]), 'wb') as f           f.write(r.content)
           time.sleep(1)

完整程式碼

完整程式碼如下，包括了建立資料夾，利用多執行緒爬取，我設定的是5個執行緒，可以根據自己機器自己來設定一下。

import requests
import os
import time
import threading
from bs4 import BeautifulSoup

def download_page(url):
   '''
   用於下載頁面
   '''
   headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
   r = requests.get(url, headers=headers)
   r.encoding = 'gb2312'
   return r.text

def get_pic_list(html):
   '''
   獲取每個頁面的套圖列表,之後迴圈呼叫get_pic函式獲取圖片
   '''
   soup = BeautifulSoup(html, 'html.parser')
   pic_list = soup.find_all('li', class_='wp-item')
   for i in pic_list:
       a_tag = i.find('h3', class_='tit').find('a')
       link = a_tag.get('href')
       text = a_tag.get_text()
       get_pic(link, text)

def get_pic(link, text):
   '''
   獲取當前頁面的圖片,並儲存
   '''
   html = download_page(link)  # 下載介面
   soup = BeautifulSoup(html, 'html.parser')
   pic_list = soup.find('div', id="picture").find_all('img')  # 找到介面所有圖片
   headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
   create_dir('pic/{}'.format(text))
   for i in pic_list:
       pic_link = i.get('src')  # 拿到圖片的具體 url
       r = requests.get(pic_link, headers=headers)  # 下載圖片，之後儲存到檔案
       with with open('pic/{}/{}'.format(text, pic_link.split('/')[-1]), 'wb') as f:
           f.write(r.content)
           time.sleep(1)   # 休息一下，不要給網站太大壓力，避免被封

def create_dir(name):
   if not os.path.exists(name):
       os.makedirs(name)

def execute(url):
   page_html = download_page(url)
   get_pic_list(page_html)

def main():
   create_dir('pic')
   queue = [i for i in range(1, 72)]   # 構造 url 連結 頁碼。
   threads = []
   while len(queue) > 0:
       for thread in threads:
           if not thread.is_alive():
               threads.remove(thread)
       while len(threads) < 5 and len(queue) > 0:   # 最大執行緒數設定為 5
           cur_page = queue.pop(0)
           url = 'http://meizitu.com/a/more_{}.html'.format(cur_page)
           thread = threading.Thread(target=execute, args=(url,))
           thread.setDaemon(True)
           thread.start()
           print('{}正在下載{}頁'.format(threading.current_thread().name, cur_page))
           threads.append(thread)

if __name__ == '__main__':
   main()

好了，之後執行，我們的爬蟲就會孜孜不倦的為我們下載漂亮妹子啦。

（完）

Python 爬蟲入門之爬取妹子圖

Python 爬蟲入門之爬取妹子圖來源：李英傑連結： https://segmentfault.com/a/1190000015798452 聽說你寫程式碼沒動力？本文就給你動力，爬取妹子圖。如果這也沒動力那就沒救了。 GitHub 地址:&

python爬蟲入門之爬取小說.md

新手教學：用Python爬取小說我們在學習Python之餘總想著讓其更具趣味性，可以更好地學習。下面我將講解如何去從網站中爬取我們想看的小說。讓我們枯燥無聊的學習生涯稍微多些趣味。需要只是一點點對requests庫、Beautiful庫及python基礎知識

Python爬蟲入門教程 2-100 妹子圖網站爬取

字典註意 while import 我們分鐘基礎便是訪問前言從今天開始就要擼起袖子，直接寫Python爬蟲了，學習語言最好的辦法就是有目的的進行，所以，接下來我將用10+篇的博客，寫爬圖片這一件事情。希望可以做好。為了寫好爬蟲，我們需要準備一個火狐瀏覽器，還

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

Python 爬蟲入門(一)——爬取糗百

upa ext win comment 地址 odi 批量爬蟲程序 article 爬取糗百內容 GitHub 代碼地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公眾號：【智能制造專

爬蟲入門之爬取靜態網頁表格資料

我們的目標就是將這個表格中的資料爬下來儲存成csv檔案目標連結:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html 內容解析部分我更喜歡使用Pyquery 你也可以使用其他的解析方式 #!/usr/bin/env py

python爬蟲學習之爬取全國各省市縣級城市郵政編碼

例項需求：運用python語言在http://www.ip138.com/post/網站爬取全國各個省市縣級城市的郵政編碼，並且儲存在excel檔案中例項環境：python3.7　　　　　　 requests庫(內建的python庫，無需手動安裝)　　　　　　 xlwt庫(需要自己手動安裝) 例項網站：

Python爬蟲入門（爬取某網頁財經部分股票資料）

1：反思部分之前上學期也是看過一點點爬蟲的東西，然後時間太久了也基本哪裡學的又還給哪裡了。然後這兩週的時間被班主任的要求下開始一點一點接觸爬蟲，開始的時候覺的很害怕。可能是因為我這個人的性格，對於未接觸過的事物總有一些莫名的恐懼感，而且之前做東西總習慣了旁邊

python爬蟲例項之爬取智聯招聘資料

這是作者的處女作，輕點噴。。。。實習在公司時領導要求學習python，python的爬蟲作為入門來說是十分友好的，話不多說，開始進入正題。主要是爬去智聯的崗位資訊進行對比分析出java和python的趨勢，爬取欄位：工作地點，薪資範圍，要求學歷，

Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登入(記錄)

問題引入開始鏈家爬蟲的時候，瞭解到需要實現模擬登入，不登入不能爬取三個月之內的資料，目前暫未驗證這個說法是否正確，這一小節記錄一下利用瀏覽器(IE11)的開發者工具去分析模擬登入網站(鏈家)的內部邏輯過程，花了一個週末的時間，部分問題暫未解決。思路介

Python爬蟲實戰之爬取B站番劇資訊(詳細過程)

目標：爬取b站番劇最近更新輸出格式:名字+播放量+簡介那麼開始擼吧~ 用到的類庫： requests:網路請求 pyquery:解析xml文件，像使用jquery一樣簡單哦~ 1.分析頁面佈局，找到需要爬取的內

Python爬蟲入門 | 5 爬取小豬短租租房資訊

小豬短租是一個租房網站，上面有很多優質的民宿出租資訊，下面我們以成都地區的租房資訊為例，來嘗試爬取這些資料。 1.爬取租房標題按照慣例，先來爬下標題試試水，找到標題，複製xpath。多複製幾個房屋的標題 xpath 進行對比：

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書資訊

我們將要爬取哪些資訊：書名、連結、評分、一句話評價…… 1. 爬取單個資訊我們先來嘗試爬取書名，利用之前的套路，還是先複製書名的xpath：得到第一本書《追風箏的人》的書名xpath如下： //*[@id=

python爬蟲系列之爬取百度文庫（一）

一、什麼是selenium 在爬取百度文庫的過程中，我們需要使用到一個工具selenium（瀏覽器自動測試框架），selenium是一個用於web應用程式測試的工具，它可以測試直接執行在瀏覽器中，就像我們平時用瀏覽器上網一樣，支援IE(7，8，9，10，11),firefo

python 爬蟲入門(二) 爬取簡單網頁並儲存到本地

import refrom urllib.request import Request, urlopen#爬蟲基本的三個步驟:1.向頁面傳送請求, 獲取原始碼(都是靜態頁面的程式碼);2, 利用正則匹配資料;3 .儲存到資料庫class DataParserTool(obje

Python爬蟲入門 | 2 爬取豆瓣電影資訊

這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步瞭解爬蟲，跟著課程內容能自己爬取資源。看著文章，開啟電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~ 好啦，正式開始我們的第二節課《爬取豆瓣電影資訊

python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

第一步，爬取所有圖書標籤及分類到達圖書標籤頁，分類瀏覽，第一步需要爬取所有分類及其分類下的所有標籤並用dict儲存需要解析的內容 1.bs4解析 import requests from bs4 import Beau

Python爬蟲入門之豆瓣短評爬取

採用工具pyCharm，python3，工具的安裝在這就不多說了，之所以採用python3是因為python2只更新維護到2020年。新建python專案 File-Settings-project interpreter，點右上角+號，安裝requests，lx

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python 爬蟲入門之爬取妹子圖

Python 爬蟲入門之爬取妹子圖

相關推薦