爬取取百度和Flickr影象

阿新 • • 發佈：2020-08-21

爬取百度和Flickr影象

import requests
from threading import Thread
import re
import time
import hashlib

class BaiDu:
    """
    爬取百度圖片
    """
    def __init__(self, name, page):
        self.start_time = time.time()
        self.name = name
        self.page = page
        #self.url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&rn=60&'
        self.url = 'https://image.baidu.com/search/acjson'
        self.header = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}# 新增為自己的瀏覽器版本，具體操作網上一大推
        self.num = 0
        self.all_num = 0
        self.thread_all = [] # thread num

    def queryset(self):
        """
        將字串轉換為查詢字串形式
        """
        pn = 0
        for i in range(int(self.page)):
            pn += 60 * i
            name = {'word': self.name, 'pn': pn, 'tn':'resultjson_com', 'ipn':'rj', 'rn':60}
            url = self.url
            self.all_num += 60
            self.getrequest(i, url, name)

    def getrequest(self, index, url, data):
        """
        傳送請求
        """
        print('[INFO]: 開始傳送請求：' + url)
        ret = requests.get(url, headers=self.header, params=data)

        if str(ret.status_code) == '200':
            print('[INFO]: request 200 ok :' + ret.url)
        else:
            print('[INFO]: request {}, {}'.format(ret.status_code, ret.url))

        response = ret.content.decode()
        img_links = re.findall(r'thumbURL.*?\.jpg', response)
        links = []
        # 提取url
        for link in img_links:

            links.append(link[11:])
 
        self.build_thread(index, links)

    def saveimage(self, links):
        """
        儲存圖片
        """
        for i, link in enumerate(links):
            if not link:
                continue
            #print('[INFO]:正在儲存圖片：' + link)
            m = hashlib.md5()
            m.update(link.encode())
            name = m.hexdigest()
            try:
                ret = requests.get(link, headers = self.header)
                image_content = ret.content
                filename = './images/' + name + '.jpg'

                with open(filename, 'wb') as f:
                    f.write(image_content)

                #print('[INFO]:儲存成功，圖片名為：{}.jpg'.format(name))
            except Exception:
                pass
            self.num += 1

    def run(self):
        for thred_p in self.thread_all:
            thred_p.start()
        for thred_p in self.thread_all:
            thred_p.join() 

    def build_thread(self, i, links):
        """多執行緒"""
        self.thread_all.append(Thread(target=self.saveimage, args=(links,)))
        

    def __del__(self):

        end_time = time.time()
        print('request total images: {}, actual download images: {}, time cost {} second'.format(self.all_num, self.num, (end_time - self.start_time)))

def main():
    hand_name = ['人臉', 'head','arm']
    for name in hand_name:
        #name = '手勢影象'#input('請輸入你要爬取的圖片型別: ')
        page = 10 #input('請輸入你要爬取圖片的頁數(60張一頁):')
        baidu = BaiDu(name, page)
        baidu.queryset()
        baidu.run()


if __name__ == '__main__':


    main()

#coding:utf-8

import flickrapi
import urllib
import os
from threading import Thread
from tqdm import tqdm

class CrawlFlickr:
    def __init__(self, API_KEY="", API_SECRET="", SavePath="", 
                        PerPage=10, Text="", Tags="", ThreadNum=4,
                        MaxCounter=10):
       
        self.urls = []
        self.ThreadNum = ThreadNum
        self.SavePath = SavePath
        self.Thread_All = []
        self.MaxCounter = MaxCounter

        flickr = flickrapi.FlickrAPI(API_KEY, API_SECRET, cache=True)
        self.photos=flickr.walk(text=Text,
                                tag_mode='all',
                                tags=Tags,
                                extras='url_c',
                                per_page=PerPage,           # may be you can try different numbers..
                                sort='relevance')
        self.get_url()
        self.build_thread()

    def get_url(self):
        for i, photo in enumerate(self.photos):
            url = photo.get('url_c')
            if str(url) == "None":
                continue
            self.urls.append(url)
            if i >= self.MaxCounter:
                break
            if i%200==0:
                print('get {} url, max {}\n'.format(len(self.urls), self.MaxCounter))
        print('\nget {} url finish.....\n'.format(len(self.urls)))
    
    def build_thread(self):
        if self.ThreadNum >= len(self.urls):
            raise ValueError(f"Input Thread number is large: {self.ThreadNum},"
                        "while data is small: {len(self.urls)}")

        part = len(self.urls) // self.ThreadNum
        for i in range(self.ThreadNum)[::-1]:
            self.Thread_All.append(Thread(target=self.get_img, args=(self.urls[i * part:],)))
            self.urls = self.urls[:i * part]
        print('build thread finish...\n')

    def run(self):
        for thred in self.Thread_All:
            thred.start()
        for thred in self.Thread_All:
            thred.join()
        print('download image finish...\n')

    def get_img(self, urls):
        for url in urls:
            img_name = url.split('/')[-1]
            if '.jpg' in img_name or '.png' in img_name:
                urllib.request.urlretrieve(url, os.path.join(self.SavePath, img_name))
                print('download {}\n'.format(os.path.join(self.SavePath, img_name)))

if __name__ == "__main__":
    param = dict(
        API_KEY="", 
        API_SECRET="", 
        SavePath="./images", 
        PerPage=10,
        Text="human pose", 
        Tags="", 
        ThreadNum=8,
        MaxCounter=500
    )
    crawl_flickr = CrawlFlickr(**param)
    crawl_flickr.run()

爬取取百度和Flickr影象

爬取百度和Flickr影象 import requests from threading import Thread import re import time import hashlib

python爬蟲實戰之爬取任意百度圖片（升級版）

技術標籤：python的學習之旅python百度爬蟲 python爬蟲實戰之爬取任意百度圖片（升級版）

爬取京東百度知乎

爬取京東資料商品(單頁) 關於延時等待有時候我們在訪問網站資料的時候載入需要一定的時間沒有載入完全的情況下程式碼極其容易報錯此時需要我們的等待頁面資料載入完畢如何精確等待?

基於百度AI的影象文字提取應用程式

技術標籤：windows 基於百度AI的影象文字提取應用程式現如今，影象提取文字功能被越來越多人需要，尤其是辦公與教學。但是目前app提供的都是有償服務，其實，我們完全可以自己編寫小程式來實現，下面是小編自己

基於百度和echars介面,實現多點連線

引言今天用百度地圖和echarts,實現多點連線。展示前端html <!DOCTYPE html> <html class=\"x-admin-sm\">

百度鮮花影象爬取

深度學習依賴大量的資料，除了使用公開的資料集之外就是利用Python的爬蟲技術自己收集和整理，爬蟲的本質是利用程式碼模擬瀏覽器向網頁發起請求，得到網站的相應進行分析從中獲取想要爬取的資料，本例子利用程式碼在

Python爬蟲爬取百度搜索內容程式碼例項

這篇文章主要介紹了Python爬蟲爬取百度搜索內容程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python+selenium+bs4爬取百度文庫內文字 && selenium 元素可以定位到，但是無法點選問題 && pycharm多行縮排、左移

先說一下可能用到的一些python知識一、python中使用的是unicode編碼, 而日常文字使用各類編碼如:gbk utf-8 等等所以使用python進行文字讀寫操作時候經常會出現各種錯誤, 一般都是操作時沒有進行轉碼操作.而轉碼則需

python網路爬蟲案例：批量爬取百度貼吧頁面資料

⾸先我們建立⼀個 python⽂件, tiebaSpider.py，我們要完成的是，輸⼊⼀個百度貼吧的地址，⽐如：

Python使用requests模組爬取百度翻譯

requests模組： python中原生的一款基於網路請求的模組，功能非常強大，簡單便捷，效率極高。

python爬蟲-爬取百度圖片

python爬蟲-爬取百度圖片（轉） #!/usr/bin/python# coding=utf-8# 作者:Y0010026# 建立時間:2018/12/16 16:16# 檔案:spider_04.py# IDE:PyCharm# 爬取百度圖片（GET方式爬取Ajax資料）import urllib2url = \'http:/