python 爬取表情包——鬥圖啦

阿新 • • 發佈：2018-12-21

#import urllib
import requests
import time
from lxml import etree
url='http://www.doutula.com/'
headers={'Referer':'http://www.doutula.com/',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER'}

resp=requests.get(url,headers=headers)
print(resp.text)
'''
<img class="gif" style="min-height: inherit;left: 5px;top:5px" src="//static.doutula.com/img/gif.png" />
<img src="//static.doutula.com/img/loader_170_160.png" 
style="margin: 0 auto; min-height: inherit;"
 data-original="https://ws2.sinaimg.cn/bmiddle/6af89bc8gw1f8smgrjzkug20af0afmyl.gif"
 alt="總愛在我的生活裡指手畫腳，俗稱經驗婊和過來人婊" class="img-responsive lazy image_dta"
 data-backup="http://img.doutula.com/production/uploads/image//2016/06/10/20160610526577_IvENsd.gif!dta">
 '''

#開始解析

#html=etree.HTML(resp.text)
#srcs=html.xpath('.//img/@data-original')
#for src in srcs:
#    filename=src.split('/')[-1]
#    img=requests.get(src,headers=headers)
#    
#    with open('D:\Anaconda3\imgs/'+filename,'wb') as file:
#        file.write(img.content)  
#    print(src,filename)
#    
#print(len(src))



def download_img(src):
    filename=src.split('/')[-1]
    img=requests.get(src,headers=headers)
    with open('D:\Anaconda3\imgs/'+filename,'wb') as file:
        file.write(img.content)  
    print(src,filename)



def get_page(url):
    resp=requests.get(url,headers=headers)
    print(resp,url)
    html=etree.HTML(resp.text)
    srcs=html.xpath('.//img/@data-original')
    for src in srcs:
        download_img(src)
        
    next_link=html.xpath('.//a[@rel="next"]/@href')
    return ['next_link']


next_link_base='http://www.doutula.com/article/list/?page='
next_link=html.xpath('.//a[@rel="next"]/@href')
current_num=1
while next_link:
    time.sleep(0.2)
    current_num+=1
    next_link=get_page(next_link_base+str(current_num))
    if current_num>=4:
        break
        
        

'''
http://www.doutula.com/article/list/?page=581
'''

python 爬取表情包——鬥圖啦

#import urllib import requests import time from lxml import etree url='http://www.doutula.com/' headers={'Referer':'http://www.doutula.com

Python自動生成表情包鬥圖再無對手！

作為一個數據分析師，應該信奉一句話----"一圖勝千言"。不過這裡要說的並不是資料視覺化，而是一款全民向的產品形態----表情包！！！！表情包不僅僅是一種符號，更是一種文化；是促進社交乃至社會發展的動力之一，就像懶。我們堅持認為，一張優秀的表情包，應該是一幅藝術品，是

多執行緒爬取表情包，鬥圖再也難不倒我了

前言過元旦的這段時間，小編在群裡瘋狂的搶紅包。過程中群裡的表情包滿天飛，於是小編便去瞄了一眼自己收藏的表情包。那個數目真是少的可憐啊~ 這不是明擺著不把小編放在眼裡麼？於是小編自己動手自己爬取了各種表情包，鬥圖再也難不倒小編了哈哈~（豬叫聲）程式碼

python使用多執行緒爬取表情包

使用多執行緒爬取資料可以顯著提高效率編輯環境：pycharm 目標：爬取表情包庫的所有表情包首先在同目錄下建一個images資料夾程式碼如下 #cod

python爬取煎蛋妹子圖（老司機養成之路）

chrom all with file windows import apple 妹子 lib 源碼： 1 import urllib.request 2 from bs4 import BeautifulSoup 3 import os 4 import io

python爬取微博配圖

平時沒事就喜歡刷刷微博，追追星，關注關注娛樂圈動態順便看看老婆們的最新動態，每次看到老婆們發的新圖就很幸福，於是就想寫個爬蟲把老婆們的微博配圖給爬下來，一般爬到的不是自拍就是表情包，還是收穫滿滿的。因為最近學到了一句話:不要重複造輪子。所以第一當然是去看一看有沒有別的寫出來的成品，然

Python 爬取煎蛋妹子圖

煎蛋妹子圖網站最近一直在通過爬蟲的練習，來鞏固自己的所學習到的 python 基礎，和爬蟲一些框架的使用。今天的程式就是最近在學習的 selenium 庫，通過利用 requests + beautifulsoup + selenium 庫來進行網站的抓取。抓取的物件是煎蛋網中的妹子板塊

Python爬取煎蛋妹子圖

煎蛋妹子圖網站最近一直在通過爬蟲的練習，來鞏固自己的所學習到的 python 基礎，和爬蟲一些框架的使用。今天的程式就是最近在學習的 selenium 庫，通過利用 requests + beautifulsoup + selenium 庫來進行網站的抓取。抓取的物件是煎蛋網中的妹子板塊，圖片的

python爬蟲練手之鬥圖啦

網際網路時代，難免會和別人在線上聊天，而現在的年輕人吶！一言不合就開始鬥圖！我難道就默默看著別人裝逼嗎？NO!拒絕！所以呢藉此機會我們找個表情網站，爬一波圖片啦由於網站結構比較簡單，沒有非同步載入，直接從html就能查詢資訊啦，所以就不

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python爬蟲入門教程 13-100 鬥圖啦表情包多線程爬取

.text 入門教程地址 ESS 文件頭部 https .html 一個 mat 寫在前面今天在CSDN博客，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裏面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多線程版本的。關鍵技術點 aiohttp ，你可以

Python爬蟲入門教程，多執行緒採集鬥圖啦表情包！

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。 https://github.com/wangde

Python爬取鬥圖表情，讓你成為鬥圖大佬

話不多說，上結果（只爬了10頁內容）上程式碼：（可直接執行）用到Xpath #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/12/24 15:20 import requests imp

Python 爬取鬥圖啦圖片

鬥圖啦 requests BeautifulSoup4 程式碼 # -*- coding:utf-8 -*- # pip install requests 框架 import requests # pip install beautifulsoup4 框架 # p

用python爬取鬥圖啦圖片

一、程式碼部分 # -*- coding:utf-8 -*- '''1、python版本 python3.6 2、IDE PyCharm 2017.3 ''' import requests imp

爬蟲1.1爬取鬥圖啦圖片（關於open函式和urlretrieve函式）

文章只是我作為NewBird ٩꒰▽ ꒱۶⁼³₌₃ 學習的一小點小點的進步還請不要笑我⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄ 我就直接貼程式碼了，我不會說很技術的話。 1.建立專案命令： scrapy startproject <project_nam

自從會了Python在群裏鬥圖就沒輸過，Python批量下載表情包！

req ESS 有時技術含量 cmd 哪裏學習python 以及 python學習導語最近圖慌，於是隨便寫了個表情包批量下載的腳本，沒什麽技術含量，純娛樂性質。讓我們愉快地開始吧~ 開發工具 Python版本：3.6.4 相關模塊： requests模塊； fa

python爬取豆瓣小組700+話題加回復啦啦啦python open file with a variable name

技術分享 ash 寫入 blog ima ron tar 回復 -128 需求：爬取豆瓣小組所有話題（話題title，內容，作者，發布時間），及回復（最佳回復，普通回復，回復_回復，翻頁回復，0回復）解決：1. 先爬取小組下，所有的主題鏈接，通過定位nextp

python 爬取京東手機圖

跳過 close 高手 cnblogs port cep findall pen 得到初學urllib，高手勿噴... import re import urllib.request #函數：每一頁抓取的30張圖片 def craw(url,page): ima

Python爬取千圖網PS素材圖片

宣告：僅用於學習交流，請勿用於任何商業用途！感謝大家！需求：在千圖網http://www.58pic.com中的某一板塊中，將一定頁數的高清圖片素材爬取到一個指定的資料夾中。分析：以數碼電器板塊為例檢視該板塊的每一頁的URL：

python 爬取表情包——鬥圖啦

相關推薦