ImagePipeline的原始碼與個人理解

阿新 • • 發佈：2018-12-13

學習scrapy框架時，用到了自定義繼承自ImagePipeline的類下載圖片，對於函式中的引數存在疑問，查看了ImagePipeline的原始碼，如下：

class ImagesPipeline(FilesPipeline):
    """
    Abstract pipeline that implement the image thumbnail generation logic

    """

    MEDIA_NAME = 'image'
    MIN_WIDTH = 0
    MIN_HEIGHT = 0
    THUMBS = {}
    DEFAULT_IMAGES_URLS_FIELD = 'image_urls'
    DEFAULT_IMAGES_RESULT_FIELD = 'images'

    @classmethod
    def from_settings(cls, settings):
        cls.MIN_WIDTH = settings.getint('IMAGES_MIN_WIDTH', 0)
        cls.MIN_HEIGHT = settings.getint('IMAGES_MIN_HEIGHT', 0)
        cls.EXPIRES = settings.getint('IMAGES_EXPIRES', 90)
        cls.THUMBS = settings.get('IMAGES_THUMBS', {})
        s3store = cls.STORE_SCHEMES['s3']
        s3store.AWS_ACCESS_KEY_ID = settings['AWS_ACCESS_KEY_ID']
        s3store.AWS_SECRET_ACCESS_KEY = settings['AWS_SECRET_ACCESS_KEY']

        cls.IMAGES_URLS_FIELD = settings.get('IMAGES_URLS_FIELD', cls.DEFAULT_IMAGES_URLS_FIELD)
        cls.IMAGES_RESULT_FIELD = settings.get('IMAGES_RESULT_FIELD', cls.DEFAULT_IMAGES_RESULT_FIELD)
        store_uri = settings['IMAGES_STORE']
        return cls(store_uri)

    def file_downloaded(self, response, request, info):
        return self.image_downloaded(response, request, info)

    def image_downloaded(self, response, request, info):
        checksum = None
        for path, image, buf in self.get_images(response, request, info):
            if checksum is None:
                buf.seek(0)
                checksum = md5sum(buf)
            width, height = image.size
            self.store.persist_file(
                path, buf, info,
                meta={'width': width, 'height': height},
                headers={'Content-Type': 'image/jpeg'})
        return checksum

    def get_images(self, response, request, info):
        path = self.file_path(request, response=response, info=info)
        orig_image = Image.open(StringIO(response.body))

        width, height = orig_image.size
        if width < self.MIN_WIDTH or height < self.MIN_HEIGHT:
            raise ImageException("Image too small (%dx%d < %dx%d)" %
                                 (width, height, self.MIN_WIDTH, self.MIN_HEIGHT))

        image, buf = self.convert_image(orig_image)
        yield path, image, buf

        for thumb_id, size in self.THUMBS.iteritems():
            thumb_path = self.thumb_path(request, thumb_id, response=response, info=info)
            thumb_image, thumb_buf = self.convert_image(image, size)
            yield thumb_path, thumb_image, thumb_buf

    def convert_image(self, image, size=None):
        if image.format == 'PNG' and image.mode == 'RGBA':
            background = Image.new('RGBA', image.size, (255, 255, 255))
            background.paste(image, image)
            image = background.convert('RGB')
        elif image.mode != 'RGB':
            image = image.convert('RGB')

        if size:
            image = image.copy()
            image.thumbnail(size, Image.ANTIALIAS)

        buf = StringIO()
        image.save(buf, 'JPEG')
        return image, buf

    def get_media_requests(self, item, info):
        return [Request(x) for x in item.get(self.IMAGES_URLS_FIELD, [])]

    def item_completed(self, results, item, info):
        if self.IMAGES_RESULT_FIELD in item.fields:
            item[self.IMAGES_RESULT_FIELD] = [x for ok, x in results if ok]
        return item

    def file_path(self, request, response=None, info=None):
        ## start of deprecation warning block (can be removed in the future)
        def _warn():
            from scrapy.exceptions import ScrapyDeprecationWarning
            import warnings
            warnings.warn('ImagesPipeline.image_key(url) and file_key(url) methods are deprecated, '
                          'please use file_path(request, response=None, info=None) instead',
                          category=ScrapyDeprecationWarning, stacklevel=1)

        # check if called from image_key or file_key with url as first argument
        if not isinstance(request, Request):
            _warn()
            url = request
        else:
            url = request.url

        # detect if file_key() or image_key() methods have been overridden
        if not hasattr(self.file_key, '_base'):
            _warn()
            return self.file_key(url)
        elif not hasattr(self.image_key, '_base'):
            _warn()
            return self.image_key(url)
        ## end of deprecation warning block

        image_guid = hashlib.sha1(url).hexdigest()  # change to request.url after deprecation
        return 'full/%s.jpg' % (image_guid)

    def thumb_path(self, request, thumb_id, response=None, info=None):
        ## start of deprecation warning block (can be removed in the future)
        def _warn():
            from scrapy.exceptions import ScrapyDeprecationWarning
            import warnings
            warnings.warn('ImagesPipeline.thumb_key(url) method is deprecated, please use '
                          'thumb_path(request, thumb_id, response=None, info=None) instead',
                          category=ScrapyDeprecationWarning, stacklevel=1)

        # check if called from thumb_key with url as first argument
        if not isinstance(request, Request):
            _warn()
            url = request
        else:
            url = request.url

        # detect if thumb_key() method has been overridden
        if not hasattr(self.thumb_key, '_base'):
            _warn()
            return self.thumb_key(url, thumb_id)
        ## end of deprecation warning block

        thumb_guid = hashlib.sha1(url).hexdigest()  # change to request.url after deprecation
        return 'thumbs/%s/%s.jpg' % (thumb_id, thumb_guid)

    # deprecated
    def file_key(self, url):
        return self.image_key(url)
    file_key._base = True

    # deprecated
    def image_key(self, url):
        return self.file_path(url)
    image_key._base = True

    # deprecated
    def thumb_key(self, url, thumb_id):
        return self.thumb_path(url, thumb_id)
    thumb_key._base = True

在def item_completed(self, results, item, info)：中的results引數，參考文章後得知，是相對應的get_media_requests(item, info)下載的結果，是一個列表型別，其中的元素是元組型別，形如：(success, image_info_or_failure)。

ps:並沒有從原始碼中發現這樣的返回內容

其中success是下載是否成功的bool，image_info_or_failure包括url、path和checksum三項。其中，path就是相對於IMAGES_STORE的路徑（含檔名）。

results例項：

[(True,
  {'checksum': '2b00042f7481c7b056c4b410d28f33cf',
   'path': 'full/7d97e98f8af710c7e7fe703abc8f639e0ee507c4.jpg',
   'url': 'http://www.example.com/images/product1.jpg'}),
 (True,
  {'checksum': 'b9628c4ab9b595f72f280b90c4fd093d',
   'path': 'full/1ca5879492b8fd606df1964ea3c1e2f4520f076f.jpg',
   'url': 'http://www.example.com/images/product2.jpg'}),
 (False,
  Failure(...))]

貼上練習的程式碼：

def file_path(self,request,response=None,info=None):
		"""獲取圖片名稱，作為檔名"""
		url = request.url
		file_name = url.spilt('/')[-1]
		return file_name
	
	def item_completed(self,results,item,info):
		"""清除下載失敗的圖片"""
		#result： 每個 Item 下載的結果，列表型別，每個元素為元組，包括下載完成或失敗的資訊
		image_paths = [x['path'] for ok,x in results if ok]
		if not images_paths:
			raise DropItem('圖片下載失敗')
		return item
	
	def get_media_requests(self,item,info):
		"""獲取圖片連結，並將其加入到Request佇列"""
		yield Request(item['url'])

ImagePipeline的原始碼與個人理解

學習scrapy框架時，用到了自定義繼承自ImagePipeline的類下載圖片，對於函式中的引數存在疑問，查看了ImagePipeline的原始碼，如下： class ImagesPipeline(FilesPipeline): """ Abs

Oracle Decode函式的簡單用法與個人理解

Oracle Decode函式的簡單用法個人的簡單理解舉例說明個人的簡單理解本人在嘗試用了之後發現，decode的用法其實與Excel中IF的用法類似 decode（條件,值1,返回值1,值2,返回值2,…值n,返回

關於VPN的個人理解與問題解決

關於JS中原型鏈中的prototype與_proto_的個人理解與詳細總結

轉載自：https://www.cnblogs.com/az96/p/6014621.html 一直認為原型鏈太過複雜，尤其看過某圖後被繞暈了一整子，今天清理硬碟空間（渣電腦），偶然又看到這圖，勾起了點回憶，於是索性複習一下原型鏈相關的內容，表達能力欠缺邏輯混亂別見怪（為了防止新人__（此處指我）__被在此

redis個人理解3---redis的事件驅動原始碼分析

redis的事件驅動 redis效能很好，而且是一個單執行緒的框架。得益於redis主要通過非同步IO，多路複用的技術，使用反應堆（reactor）模式，把大量的io操作通過訊息驅動的方式單執行緒一條條處理，這樣可以很好的利用CPU資源。因為沒有同步呼叫，所以處理速度非常快。使得多個Client訪問red

個人理解的python中生成器與迭代器

概念可迭代物件：在python中，列表，元組，字典，字串這些可以用for迴圈遍歷的物件稱為可迭代物件。迭代器：我們建立一個容器，該容器中可以生成一些資料，這些資料可以遍歷，該容器被我們稱為迭代器。生成器：生成器為迭代器的一種，使用yield返回函式，每次呼叫yield函式程式都會暫

spring閱讀原始碼後的個人理解

spring閱讀原始碼後的個人理解 spring是java web的一套開源框架，可以理解為一個輕量級容器。它的核心有二分別是：IoC，AOP。 IoC（

非同步與分散式在爬蟲中的應用(個人理解)

非同步: 是一個非阻塞的執行模式,就是在執行主程式的時候,如果其中有了耗時操作,程式不會在這操作進行停留,而會繼續執行下面的程式碼拓展: 其中普及一下:常見的阻塞形式有:網路I/O操作,磁碟的I/O操作,使用者輸入時候的阻塞. &n

【JAVA,ArrayList原始碼】閱讀ArrayList原始碼個人理解

閱讀ArrayList原始碼個人理解近期閱讀了java.util.ArrayList.java的原始碼 ArrayList介紹從貼出程式碼不難看出，ArrayList是繼承了AbstractList，並且實現了List，RandomAccess，Cloneable，

如何將量子鏈引入業務系統，使用JSON-RPC與錢包通訊（內附區塊鏈學習論，個人理解，歡迎交流）

提示 Tip1.本文適合想要深入瞭解區塊鏈技術的人員閱讀 Tip2.本文適合需要在業務系統中引入比特幣/量子鏈的技術人員閱讀引言入門區塊鏈技術之前，如果對於去中心化有一定了解，這無疑將幫助你更好的理解區塊鏈的底層技術；區塊鏈的底層技術由密碼學，共識演算法，

@dynamic 與 @synthesize 關鍵詞個人理解

@synthesize的語義是如果你沒有手動實現setter方法和getter方法，那麼編譯器會自動為你加上這兩個方法。 @dynamic告訴編譯器,屬性的setter與getter方法由使用者自己實現，不自動生成。（當然對於readonly的屬性只需提供getter即

Activity 生命週期的個人理解與四種啟動模式

activity為Android四大元件之一 activity被稱之為活動主要實用為實現使用者與程式之間的互動接下來我們先來看Activity生命週期流程圖： Activity在被我們進行操作時會在四種形態中相互切換 &nbs

5.計算機發展個人理解-電路終究是電路軟體如何控制硬體程式碼如何操作硬體硬體是怎麼執行程式碼程式碼如何執行軟體與硬體如何互動計算機思維抽象封裝規範遮蔽協議分層

計算機只是邏輯電路除了電路還是電路計算機就是一堆邏輯電路他並不知道你到底想要幹什麼,他也不會理解什麼是檔案,什麼是程序通電的瞬間,就好像你開啟開關,燈泡發光一樣所有的一切都是通過通電來啟動的 start the world 計算機某些部件,具體到比如某個閘電路,有電流通過這個電流就

簡單搜尋(dfs與bfs我的個人理解)

說到簡單搜尋，主要就是將以深度優先搜尋和廣度優先搜尋。為什麼要叫深度優先和廣度優先的搜尋呢？因為搜尋是建立樹的這種結構上的。無論是深度優先搜尋還是廣度優先搜尋，都是從樹根開始依次向下搜尋。這個時候深度優先和廣度優先的區別就出來了。很顯然，深度優先是從一個樹根一直搜尋到最底層的

Ubuntu 16.04與Windows 10優缺點對比，個人理解

本人Linux新手，來談談最近的使用感受(純屬個人觀點) 如有錯誤請糾正，如有缺漏請補充希望大神們指導指導 Ubuntu 16.04優點 1.高效的檔案管理系統，一般情況下不需要碎片整理 2.產生的系統垃圾很少，系統不會隨著使用時間的增多而越來越

對工廠模式與建造者模式的個人理解，以及結合運用

學習了一段時間設計模式，就想分享一下自己的理解，歡迎大家多多指點，指出不足之處哈個人理解，工廠模式用於處理如何獲取例項物件問題，建造者模式用於處理如何建造例項物件問題（好像是廢話。。。）。兩者應該可以結合起來，下面將以商店售賣手機這場景來描述。工廠模式：簡單

spring+mybatis通用dao層、service層的一些個人理解與實現

1、現在的絕大多數web應用，通常都以action、service、dao三層去組織程式碼，這樣劃分結構很清晰，分工明確 2、一般情況下，我們會把事務控制在service層。 3、action和dao層，會使用一些框架技術。比如action層可能選擇有springmvc、struts等，dao層有hibe

對橋接模式的個人理解，以及與工廠方法模式、建造者模式的結合運用

學習了一段時間設計模式，就想分享一下自己的理解，歡迎大家多多指點，指出不足之處哈橋接模式：以商店與手機為例子來描述，先從簡單的依賴關係說起 public interface Phone { /** 充電 **/ void charge(); /** 解鎖 *

JFinal原始碼解析與思想理解

動機在做專案的過程中運用到了JFinal，由於是第一次看這樣框架的原始碼，所以很多東西都不知道。想多瞭解一些架構的思想和Web學習的基本知識。本文主要從大致的方面介紹JFinal,對於細節不做深究,而且本文的原始碼只剪輯了真正原始碼的部分。總體思想

python裝飾器與AOP程式設計，個人理解

Python裝飾器是一個很出名的設計模式，它主要的功能就是不改變函式已有功能的情況下對函式起到一個錦上添花的作業，使函式的功能更加豐富，在插入日誌，效能測試，快取機制和許可權驗證都是比較好的左右。不同的函式可以使用同一個裝飾器，所以它和函式本身不存在什麼必然的聯絡。AOP(面

ImagePipeline的原始碼與個人理解

相關推薦