python爬蟲練手之鬥圖啦

阿新 • • 發佈：2019-01-11

網際網路時代，難免會和別人在線上聊天，而現在的年輕人吶！一言不合就開始鬥圖！我難道就默默看著別人裝逼嗎？NO!拒絕！所以呢藉此機會我們找個表情網站，爬一波圖片啦

由於網站結構比較簡單，沒有非同步載入，直接從html就能查詢資訊啦，所以就不做詳細分析~

#coding:utf-8
import requests
import os
from lxml import html
from multiprocessing import Pool
class doutula():
    base_url = 'https://www.doutula.com/'
    headers={
            'accept-encoding':'gzip, deflate, sdch, br',
            'accept-language':'zh-CN,zh;q=0.8',
            'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.96 Safari/537.36'
    }

    def get_selector(self,url):
        return html.fromstring(requests.get(url,headers=self.headers).text)

    ## 獲取第num頁下每個套圖的入口地址
    def get_page_link(self,num):
        now_url = "{}/article/list/?page={}".format(self.base_url,num)
        selector = self.get_selector(now_url)
        page_link = []
        for i in selector.xpath('//ul[@class="list-group"]/a/@href'):
            page_link.append(i)
        return page_link

    # 獲取詳細頁下的資訊，返回一個元組，包括標題和連結的列表
    def get_page_detail(self,url):
        pic_list = []
        selector = self.get_selector(url)
        # 獲取詳細頁的標題,圖片連線
        title = selector.xpath('//li[@class="list-group-item"]/h3/blockquote/a/text()')[0]
        pic_link = selector.xpath('//div[@class="artile_des"]/table/tbody/tr/td/a/img/@src')
        for i in pic_link:
            pic_list.append(i)
        return title,pic_link

    def Make_dir(self,title):
        future_dir = "{}/{}".format(os.path.abspath('.'),title)
        if os.path.exists(future_dir):
            print(u'資料夾已存在，跳過')
            return False
        else:
            os.mkdir(future_dir)
            print(title,u'資料夾建立完成')
            return True

    def down_load(self,page_info):
        count = 1
        title = page_info[0]
        pic_link = page_info[1]
        if self.Make_dir(title):
            for i in pic_link:
                now_path = "{}/{}/{}.jpg".format(os.path.abspath('.'), title, str(count))
                print(now_path)
                page_link = "https:{}".format(i)
                with open(now_path,'wb') as f:
                    f.write(requests.get(page_link,headers=self.headers).content)
                count+=1

def run(self,num=1):
    for i in self.get_page_link(num):
        self.down_load(self.get_page_detail(i))


if __name__ == '__main__':
    dt = doutula()
    dt.run(1)

python爬蟲練手之鬥圖啦

網際網路時代，難免會和別人在線上聊天，而現在的年輕人吶！一言不合就開始鬥圖！我難道就默默看著別人裝逼嗎？NO!拒絕！所以呢藉此機會我們找個表情網站，爬一波圖片啦由於網站結構比較簡單，沒有非同步載入，直接從html就能查詢資訊啦，所以就不

python 爬取表情包——鬥圖啦

#import urllib import requests import time from lxml import etree url='http://www.doutula.com/' headers={'Referer':'http://www.doutula.com

Python爬蟲練手小專案：爬取窮遊網酒店資訊

Python爬蟲練手小專案：爬取窮遊網酒店資訊 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 前言對於初學者而言，案例主要的是為了讓大家練手，明白其中如何這樣寫的思路，而不是拿著程式碼執行就完事了。基本環境配置系統

python多執行緒爬蟲+批量下載鬥圖啦圖片專案（關注、持續更新）

python多執行緒爬蟲專案（）爬取目標：鬥圖啦（起始url：http://www.doutula.com/photo/list/?page=1）爬取內容：鬥圖啦全網圖片使用工具：requests庫實現傳送請求、獲取響應。　　　　　　　xpath實現資料解析、提取和清洗　　　　　　　thr

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python爬蟲入門教程 13-100 鬥圖啦表情包多線程爬取

.text 入門教程地址 ESS 文件頭部 https .html 一個 mat 寫在前面今天在CSDN博客，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裏面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多線程版本的。關鍵技術點 aiohttp ，你可以

Python爬蟲入門教程，多執行緒採集鬥圖啦表情包！

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。 https://github.com/wangde

python小爬蟲練手

spider cep 文件名 found dha visit doc try ret 一個人無聊，寫了個小爬蟲爬取不可描述圖片.... 代碼太短，就暫時先往這裏貼一下做備份吧。 #! /usr/bin/python import chardet import urlli

爬蟲_鬥圖啦(隊列，多線程)

produce rom return range while rod 爬蟲 put 2.0 1 import threading 2 import requests 3 from lxml import etree 4 from urllib import

Python 爬取鬥圖啦圖片

鬥圖啦 requests BeautifulSoup4 程式碼 # -*- coding:utf-8 -*- # pip install requests 框架 import requests # pip install beautifulsoup4 框架 # p

爬蟲1.1爬取鬥圖啦圖片（關於open函式和urlretrieve函式）

文章只是我作為NewBird ٩꒰▽ ꒱۶⁼³₌₃ 學習的一小點小點的進步還請不要笑我⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄ 我就直接貼程式碼了，我不會說很技術的話。 1.建立專案命令： scrapy startproject <project_nam

用python爬取鬥圖啦圖片

一、程式碼部分 # -*- coding:utf-8 -*- '''1、python版本 python3.6 2、IDE PyCharm 2017.3 ''' import requests imp

day-1.python初學者練手題

tom rep 初學 grid repeat 只需要 () padding -1 1.編寫一個名為right_justify的函數，函數接受一個名為``s``的字符串作為形參，並在打印足夠多的前導空格（leading space）之後打印這個字符串，使得字符串的最後一個字

Python爬蟲入門一之綜述

復用智能實現進一步 -a web 蜘蛛 urllib 機器首先爬蟲是什麽？網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動的抓取萬維網信息的程序或者腳本。根據我的經驗，要學習Python爬蟲，我們要

Python爬蟲入門三之Urllib庫的基本使用

res 瀏覽器中必須答案文件的網頁 one .com 屏幕截圖 1.分分鐘扒一個網頁下來怎樣扒網頁呢？其實就是根據URL來獲取它的網頁信息，雖然我們在瀏覽器中看到的是一幅幅優美的畫面，但是其實是由瀏覽器解釋才呈現出來的，實質它是一段HTML代碼，加 JS、CSS

6.Python爬蟲入門六之Cookie的使用

expires cookielib spa result hat 即使 card rec 其他大家好哈，上一節我們研究了一下爬蟲的異常處理問題，那麽接下來我們一起來看一下Cookie的使用。為什麽要使用Cookie呢？ Cookie，指某些網站為了辨別用戶身份、進行se

python爬蟲抓取zabbix監控圖，並發郵件

python 抓取最近十九大非常煩，作為政府網站維護人員，簡直是夜不能寐。各種局子看著你，內保局，公安部，360，天融信，華勝天成，中央工委，政治委員會...360人員很傻X，作為安全公司，竟然不能抓到XX網站流量，在我們機房放的探針更是搞笑，讓我們手工上報流量數據。白天還行，晚上怎麽辦？給他寫個腳

Python爬蟲利器三之Xpath語法與lxml庫的用法

blank color idt tab 一段並且 .text rst 基本用法前面我們介紹了 BeautifulSoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 Xpath 語法，同樣是效率比較高的解析方法。如果大家

python爬蟲基礎案例之糗事百科

alt 依靠 webdriver pytho 糗事百科代碼 web 分享圖片 sel 關於爬蟲也是剛接觸，案例是基於python3做的，依靠selenium的webdriver做的，所以python3必須有selenium這個包，如果是基於谷歌瀏覽器的話需要下載谷歌瀏

python爬蟲模塊之URL管理器

ini app 重要但是 visit return 管理器 queue init URL管理器模塊一般是用來維護爬取的url和未爬取的url已經新添加的url的，如果隊列中已經存在了當前爬取的url了就不需要再重復爬取了，另外防止造成一個死循環。舉個例子我爬www.b

python爬蟲練手之鬥圖啦

相關推薦