爬蟲練習3 爬取堆糖網校花照片

阿新 • • 發佈：2017-12-03

ring http 正在 usr sts 多線程 src 技術 strings

知識點：


多線程的實現
圖片的下載及寫入
字符串高級查找
了解動態加載和json
request 的用法

獲取數據的api
‘https://www.duitang.com/napi/blog/list/by_search/?kw=%E6%A0%A1%E8%8A%B1&start=0&limt=1000‘
圖片路徑
 "path": "https://b-ssl.duitang.com/uploads/item/201509/18/20150918195615_JfdKm.jpeg"

#!/usr/bin/env python
# -*- coding:utf-8 -*- 
# Author: benjaminYang

import 
 requests,threading
import urllib.parse

#設置最大線程 開啟30個線程就鎖住
thread_lock=threading.BoundedSemaphore(value=50)


‘https://www.duitang.com/napi/blog/list/by_search/?kw=%E6%A0%A1%E8%8A%B1&start=0&limt=1000‘
#通過url 獲取數據
def get_page(url):
    #requests.get 自帶了json.loads
    page=requests.get(url)
    page 
=page.content
    # 將bytes轉成 字符串
    page=page.decode(‘utf-8‘)
    return page


def pages_from_duitang(label):
    pages=[]
    url=‘https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}&limt=1000‘
    #將中文轉成url編碼
    label=urllib.parse.quote(label)
    #0-3600 步長100
    for index in 
 range(0,3600,50):
        #將這兩個變量替換占位符{}
        u=url.format(label,index)
        page=get_page(u)
        pages.append(page)
    return pages


# print(get_page(‘https://www.duitang.com/napi/blog/list/by_search/?kw=%E6%A0%A1%E8%8A%B1&start=0&limt=1000‘))

# 單個頁面的對象，startpart 所要匹配字符1，匹配的字符2
def findall_in_page(page,startpart,endpart):
    all_strings=[]
    end=0
    # -1代表找不到 意思就是匹配到就執行循環
    while page.find(startpart,end) !=-1:
        #匹配第一個字符，從下標0開始匹配到的位置下標，並將字符長短傳給start變量
        start=page.find(startpart,end)+len(startpart)
        # 將從第一個需要匹配的字符串後面的字符開始，匹配第二個需要匹配的字符出現的位置，並將這個下標值賦給end變量
        end=page.find(endpart,start)
        #切片 取兩個所要匹配字符 之間的部分也就是圖片url
        string=page[start:end]
        #存入列表
        all_strings.append(string)
    return all_strings

# "path": "https://b-ssl.duitang.com/uploads/item/201708/20/20170820215827_fa483.jpeg"
def pic_urls_from_pages(pages):
    pic_urls=[]
    for page in pages:
        urls=findall_in_page(page,‘path":"‘,‘"‘)
        pic_urls.extend(urls) # 合並列表
    return pic_urls

def download_pics(url,n):
    r=requests.get(url)
    path=‘pics/‘+ str(n) + ‘.jpg‘
    with open(path,‘wb‘) as f:
        f.write(r.content)
    #下載完了，解鎖
    thread_lock.release()

def main(label):
     pages=pages_from_duitang(label)
     pic_urls=pic_urls_from_pages(pages)
     n=0
     for url in pic_urls:
        n +=1
        print(‘正在下載第{}張圖片‘.format(n))

        #上鎖
        thread_lock.acquire()
        #下載 這個方法丟進線程池
        t=threading.Thread(target=download_pics,args=(url,n))
        t.start()

main(‘校花‘)

技術分享圖片

此學習資源來自--潭州Python學院

爬蟲練習3 爬取堆糖網校花照片

ring http 正在 usr sts 多線程 src 技術 strings 知識點：多線程的實現圖片的下載及寫入字符串高級查找了解動態加載和jsonrequest 的用法獲取數據的api‘https://www.duitang.com/napi/blog/lis

python3網絡爬蟲（2.1）：爬取堆糖美女

pre 線程 span 需要 pic ring clas lin chrome 額，明明記得昨晚存了草稿箱，一覺醒來沒了，那就簡寫點（其實是具體怎麽解釋我也不太懂/xk，純屬個人理解，有錯誤還望指正）環境：　　版本：python3 　　IDE：pycharm201

爬蟲03 爬取堆糖圖片並儲存到本地

# -*- coding: utf-8 -*- import urllib import urllib2 import re i=0 page = 1 url = 'http://www.duitan

Python批量爬取堆糖網圖片

import urllib.parse import requests #第三方請求庫 import json import jsonpath #處理json檔案的的提取庫 from bs4 import BeautifulSoup import os im

Python爬蟲實戰(3)-爬取豆瓣音樂Top250資料(超詳細)

前言首先我們先來回憶一下上兩篇爬蟲實戰文章：第一篇：講到了requests和bs4和一些網頁基本操作。第二篇：用到了正則表示式-re模組今天我們用lxml庫和xpath語法來爬蟲實戰。 1.安裝lxml庫 window：直接用pip去

python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊

第一步，爬取所有圖書標籤及分類到達圖書標籤頁，分類瀏覽，第一步需要爬取所有分類及其分類下的所有標籤並用dict儲存需要解析的內容 1.bs4解析 import requests from bs4 import Beau

零基礎爬取堆糖網圖片（一）

## 零基礎爬取堆糖網圖片（一） ### 全文介紹：首先**堆糖網**是一個美圖桌布興趣社群，有大量的~~美女~~圖片今天我們實現搜尋關鍵字爬取堆糖網上相關的美圖。當然我們還可以實現多執行緒爬蟲，加快爬蟲爬取速度 ![](https://img2020.cnblogs.com/blog/1579925/

python爬蟲-基礎入門-爬取整個網站《3》

python爬蟲-基礎入門-爬取整個網站《3》描述：　　前兩章粗略的講述了python2、python3爬取整個網站，這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫：　　>> urllib 庫　　>> urlli

python爬蟲3——爬取騰訊招聘全部招聘資訊

python爬蟲2中，已經有了初步的程式碼，之後做了優化增加了工作職責、工作要求：獲取的資料有：程式碼如下： #!/usr/bin/env python # -*- coding:utf-8 -*- from bs4 import BeautifulS

Python3爬蟲小程式——爬取各類天氣資訊（3）

經過前面靜態頁面的爬取已經收集到很多資訊了。最近在看怎麼從動態頁面上爬取資訊，主要用到的還是selenium+phantomJS工具（如何安裝？點選這裡檢視），雖然存在一些缺點（效率不是很高），但是還算不錯。於是乎，前面從天氣網（http://www.tianqi.com

python3程式設計07-爬蟲實戰：爬取新聞網站資訊3

本篇部落格在爬取新聞網站資訊2的基礎上進行。主要內容如下： 1.定義獲取一頁20條連結內容的函式 2.構造多個分頁連結 3.抓取多個分頁連結新聞內容 4.用pandas整理爬取的資料 5.儲存資料到csv檔案 6.Scrapy的安裝

爬蟲入門-4-3.爬取豆瓣電影

lose ike mlp requests one spa host alt gen 1 import requests 2 3 url = "https://movie.douban.com/cinema/nowplaying/changsha/"

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

爬蟲實例——爬取python百度百科相關一千個詞條

管理器 name 詞條 enc aik lib cnblogs response ons 調度器： import url_manager,html_downloader,html_parser,html_outputer class SpiderMain(object

Python 正則練習(一) 爬取國內代理ip

取代替代 use -a int 5.0 tdi col 則表達式簡單的正則表達式練習，爬取代理 ip。僅爬取前三頁，用正則匹配過濾出 ip 地址和端口，分別作為key、value 存入 validip 字典。如果要確定代理 ip 是否真的可用，還需要再對代理

【Python3 爬蟲】14_爬取淘寶上的手機圖片

head 並且淘寶網 pan coff urllib images 圖片列表 pic 現在我們想要使用爬蟲爬取淘寶上的手機圖片，那麽該如何爬取呢？該做些什麽準備工作呢？首先，我們需要分析網頁，先看看網頁有哪些規律打開淘寶網站http://www.taobao.com/

python爬蟲--打開爬取頁面

PE brush OS htm tab quest replace %s class def requests_view(response): import webbrowser requests_url = response.url base_u

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 Scrapy python爬蟲教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神 python爬蟲學習課程，下載地址：https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 課程代碼原件：課程視頻：教你分分鐘學會用py

python3爬蟲-快速入門-爬取圖片和標題

瀏覽器 ebr tle path requests itl edi 大致應用直接上代碼，先來個爬取豆瓣圖片的，大致思路就是發送請求-得到響應數據-儲存數據，原理的話可以先看看這個 https://www.cnblogs.com/sss4/p/7809821.html

爬蟲練習3 爬取堆糖網校花照片

知識點：

相關推薦