1. 程式人生 > 實用技巧 >Python爬蟲技術--基礎篇--面向物件高階程式設計(中)

Python爬蟲技術--基礎篇--面向物件高階程式設計(中)

1.多重繼承

繼承是面向物件程式設計的一個重要的方式,因為通過繼承,子類就可以擴充套件父類的功能。

回憶一下Animal類層次的設計,假設我們要實現以下4種動物:

  • Dog - 狗狗;
  • Bat - 蝙蝠;
  • Parrot - 鸚鵡;
  • Ostrich - 鴕鳥。

如果按照哺乳動物和鳥類歸類,我們可以設計出這樣的類的層次:

        

但是如果按照“能跑”和“能飛”來歸類,我們就應該設計出這樣的類的層次:

           

如果要把上面的兩種分類都包含進來,我們就得設計更多的層次:

  • 哺乳類:能跑的哺乳類,能飛的哺乳類;
  • 鳥類:能跑的鳥類,能飛的鳥類。

這麼一來,類的層次就複雜了:

          

如果要再增加“寵物類”和“非寵物類”,這麼搞下去,類的數量會呈指數增長,很明顯這樣設計是不行的。

正確的做法是採用多重繼承。首先,主要的類層次仍按照哺乳類和鳥類設計:

class Animal(object):
    pass

# 大類:
class Mammal(Animal):
    pass

class Bird(Animal):
    pass

# 各種動物:
class Dog(Mammal):
    pass

class Bat(Mammal):
    pass

class Parrot(Bird):
    pass

class Ostrich(Bird):
    pass

現在,我們要給動物再加上RunnableFlyable的功能,只需要先定義好RunnableFlyable的類:

class Runnable(object):
    def run(self):
        print('Running...')

class Flyable(object):
    def fly(self):
        print('Flying...')

對於需要Runnable功能的動物,就多繼承一個Runnable,例如Dog

class Dog(Mammal, Runnable):
    pass

對於需要Flyable功能的動物,就多繼承一個Flyable

,例如Bat

class Bat(Mammal, Flyable):
    pass

通過多重繼承,一個子類就可以同時獲得多個父類的所有功能。

MixIn

在設計類的繼承關係時,通常,主線都是單一繼承下來的,例如,Ostrich繼承自Bird。但是,如果需要“混入”額外的功能,通過多重繼承就可以實現,比如,讓Ostrich除了繼承自Bird外,再同時繼承Runnable這種設計通常稱之為MixIn

為了更好地看出繼承關係,我們把RunnableFlyable改為RunnableMixInFlyableMixIn。類似的,你還可以定義出肉食動物CarnivorousMixIn和植食動物HerbivoresMixIn,讓某個動物同時擁有好幾個MixIn:

class Dog(Mammal, RunnableMixIn, CarnivorousMixIn):
    pass

MixIn的目的就是給一個類增加多個功能,這樣,在設計類的時候,我們優先考慮通過多重繼承來組合多個MixIn的功能,而不是設計多層次的複雜的繼承關係。

Python自帶的很多庫也使用了MixIn。舉個例子,Python自帶了TCPServerUDPServer這兩類網路服務,而要同時服務多個使用者就必須使用多程序或多執行緒模型,這兩種模型由ForkingMixInThreadingMixIn提供。通過組合,我們就可以創造出合適的服務來。

比如,編寫一個多程序模式的TCP服務,定義如下:

class MyTCPServer(TCPServer, ForkingMixIn):
    pass

編寫一個多執行緒模式的UDP服務,定義如下:

class MyUDPServer(UDPServer, ThreadingMixIn):
    pass

如果你打算搞一個更先進的協程模型,可以編寫一個CoroutineMixIn

class MyTCPServer(TCPServer, CoroutineMixIn):
    pass

這樣一來,我們不需要複雜而龐大的繼承鏈,只要選擇組合不同的類的功能,就可以快速構造出所需的子類。

小結

由於Python允許使用多重繼承,因此,MixIn就是一種常見的設計。

只允許單一繼承的語言(如Java)不能使用MixIn的設計

2.定製類

看到類似__slots__這種形如__xxx__的變數或者函式名就要注意,這些在Python中是有特殊用途的。

__slots__我們已經知道怎麼用了,__len__()方法我們也知道是為了能讓class作用於len()函式。

除此之外,Python的class中還有許多這樣有特殊用途的函式,可以幫助我們定製類。

__str__

我們先定義一個Student類,列印一個例項:

>>> class Student(object):
...     def __init__(self, name):
...         self.name = name
...
>>> print(Student('Michael'))
<__main__.Student object at 0x109afb190>

打印出一堆<__main__.Student object at 0x109afb190>,不好看。

怎麼才能列印得好看呢?只需要定義好__str__()方法,返回一個好看的字串就可以了:

>>> class Student(object):
...     def __init__(self, name):
...         self.name = name
...     def __str__(self):
...         return 'Student object (name: %s)' % self.name
...
>>> print(Student('Michael'))
Student object (name: Michael)

這樣打印出來的例項,不但好看,而且容易看出例項內部重要的資料。

但是細心的朋友會發現直接敲變數不用print,打印出來的例項還是不好看:

>>> s = Student('Michael')
>>> s
<__main__.Student object at 0x109afb310>

這是因為直接顯示變數呼叫的不是__str__(),而是__repr__(),兩者的區別是__str__()返回使用者看到的字串,而__repr__()返回程式開發者看到的字串,也就是說,__repr__()是為除錯服務的。

解決辦法是再定義一個__repr__()。但是通常__str__()__repr__()程式碼都是一樣的,所以,有個偷懶的寫法:

class Student(object):
    def __init__(self, name):
        self.name = name
    def __str__(self):
        return 'Student object (name=%s)' % self.name
    __repr__ = __str__

__iter__

如果一個類想被用於for ... in迴圈,類似list或tuple那樣,就必須實現一個__iter__()方法,該方法返回一個迭代物件,然後,Python的for迴圈就會不斷呼叫該迭代物件的__next__()方法拿到迴圈的下一個值,直到遇到StopIteration錯誤時退出循環。

我們以斐波那契數列為例,寫一個Fib類,可以作用於for迴圈:

class Fib(object):
    def __init__(self):
        self.a, self.b = 0, 1 # 初始化兩個計數器a,b

    def __iter__(self):
        return self # 例項本身就是迭代物件,故返回自己

    def __next__(self):
        self.a, self.b = self.b, self.a + self.b # 計算下一個值
        if self.a > 100000: # 退出迴圈的條件
            raise StopIteration()
        return self.a # 返回下一個值

現在,試試把Fib例項作用於for迴圈:

>>> for n in Fib():
...     print(n)
...
1
1
2
3
5
...
46368
75025

__getitem__

Fib例項雖然能作用於for迴圈,看起來和list有點像,但是,把它當成list來使用還是不行,比如,取第5個元素:

>>> Fib()[5]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'Fib' object does not support indexing

要表現得像list那樣按照下標取出元素,需要實現__getitem__()方法:

class Fib(object):
    def __getitem__(self, n):
        a, b = 1, 1
        for x in range(n):
            a, b = b, a + b
        return a

現在,就可以按下標訪問數列的任意一項了:

>>> f = Fib()
>>> f[0]
1
>>> f[1]
1
>>> f[2]
2
>>> f[3]
3
>>> f[10]
89
>>> f[100]
573147844013817084101

但是list有個神奇的切片方法

>>> list(range(100))[5:10]
[5, 6, 7, 8, 9]

對於Fib卻報錯。原因是__getitem__()傳入的引數可能是一個int,也可能是一個切片物件slice,所以要做判斷:

class Fib(object):
    def __getitem__(self, n):
        if isinstance(n, int): # n是索引
            a, b = 1, 1
            for x in range(n):
                a, b = b, a + b
            return a
        if isinstance(n, slice): # n是切片
            start = n.start
            stop = n.stop
            if start is None:
                start = 0
            a, b = 1, 1
            L = []
            for x in range(stop):
                if x >= start:
                    L.append(a)
                a, b = b, a + b
            return L

現在試試Fib的切片:

>>> f = Fib()
>>> f[0:5]
[1, 1, 2, 3, 5]
>>> f[:10]
[1, 1, 2, 3, 5, 8, 13, 21, 34, 55]

但是沒有對step引數作處理:

>>> f[:10:2]
[1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89]

也沒有對負數作處理,所以,要正確實現一個__getitem__()還是有很多工作要做的。

此外,如果把物件看成dict__getitem__()的引數也可能是一個可以作key的object,例如str

與之對應的是__setitem__()方法,把物件視作list或dict來對集合賦值。最後,還有一個__delitem__()方法,用於刪除某個元素

總之,通過上面的方法,我們自己定義的類表現得和Python自帶的list、tuple、dict沒什麼區別,這完全歸功於動態語言的“鴨子型別”,不需要強制繼承某個介面。

__getattr__

正常情況下,當我們呼叫類的方法或屬性時,如果不存在,就會報錯。比如定義Student類:

class Student(object):
    
    def __init__(self):
        self.name = 'Michael'

呼叫name屬性,沒問題,但是,呼叫不存在的score屬性,就有問題了:

>>> s = Student()
>>> print(s.name)
Michael
>>> print(s.score)
Traceback (most recent call last):
  ...
AttributeError: 'Student' object has no attribute 'score'

錯誤資訊很清楚地告訴我們,沒有找到score這個attribute。

要避免這個錯誤,除了可以加上一個score屬性外,Python還有另一個機制,那就是寫一個__getattr__()方法,動態返回一個屬性。修改如下:

class Student(object):

    def __init__(self):
        self.name = 'Michael'

    def __getattr__(self, attr):
        if attr=='score':
            return 99

當呼叫不存在的屬性時,比如score,Python直譯器會試圖呼叫__getattr__(self, 'score')來嘗試獲得屬性,這樣,我們就有機會返回score的值:

>>> s = Student()
>>> s.name
'Michael'
>>> s.score
99

返回函式也是完全可以的:

class Student(object):

    def __getattr__(self, attr):
        if attr=='age':
            return lambda: 25

只是呼叫方式要變為:

>>> s.age()
25

注意,只有在沒有找到屬性的情況下,才呼叫__getattr__,已有的屬性,比如name,不會在__getattr__中查詢。

此外,注意到任意呼叫如s.abc都會返回None,這是因為我們定義的__getattr__預設返回就是None。要讓class只響應特定的幾個屬性,我們就要按照約定,丟擲AttributeError的錯誤:

class Student(object):

    def __getattr__(self, attr):
        if attr=='age':
            return lambda: 25
        raise AttributeError('\'Student\' object has no attribute \'%s\'' % attr)

這實際上可以把一個類的所有屬性和方法呼叫全部動態化處理了,不需要任何特殊手段。

這種完全動態呼叫的特性有什麼實際作用呢?作用就是,可以針對完全動態的情況作呼叫。

舉個例子:

現在很多網站都搞REST API,比如新浪微博、豆瓣啥的,呼叫API的URL類似:

  • http://api.server/user/friends
  • http://api.server/user/timeline/list

如果要寫SDK,給每個URL對應的API都寫一個方法,那得累死,而且,API一旦改動,SDK也要改。

利用完全動態的__getattr__,我們可以寫出一個鏈式呼叫:

class Chain(object):

    def __init__(self, path=''):
        self._path = path

    def __getattr__(self, path):
        return Chain('%s/%s' % (self._path, path))

    def __str__(self):
        return self._path

    __repr__ = __str__

試試:

>>> Chain().status.user.timeline.list
'/status/user/timeline/list'

這樣,無論API怎麼變,SDK都可以根據URL實現完全動態的呼叫,而且,不隨API的增加而改變!

還有些REST API會把引數放到URL中,比如GitHub的API:

GET /users/:user/repos

呼叫時,需要把:user替換為實際使用者名稱。如果我們能寫出這樣的鏈式呼叫:

Chain().users('michael').repos

就可以非常方便地呼叫API了。有興趣的童鞋可以試試寫出來。

__call__

一個物件例項可以有自己的屬性和方法,當我們呼叫例項方法時,我們用instance.method()來呼叫。能不能直接在例項本身上呼叫呢?在Python中,答案是肯定的。

任何類,只需要定義一個__call__()方法,就可以直接對例項進行呼叫。請看示例:

class Student(object):
    def __init__(self, name):
        self.name = name

    def __call__(self):
        print('My name is %s.' % self.name)

呼叫方式如下:

>>> s = Student('Michael')
>>> s() # self引數不要傳入
My name is Michael.

__call__()還可以定義引數。對例項進行直接呼叫就好比對一個函式進行呼叫一樣,所以你完全可以把物件看成函式,把函式看成物件,因為這兩者之間本來就沒啥根本的區別。

如果你把物件看成函式,那麼函式本身其實也可以在執行期動態創建出來,因為類的例項都是執行期創建出來的,這麼一來,我們就模糊了物件和函式的界限。

那麼,怎麼判斷一個變數是物件還是函式呢?其實,更多的時候,我們需要判斷一個物件是否能被呼叫,能被呼叫的物件就是一個Callable物件,比如函式和我們上面定義的帶有__call__()的類例項:

>>> callable(Student())
True
>>> callable(max)
True
>>> callable([1, 2, 3])
False
>>> callable(None)
False
>>> callable('str')
False

通過callable()函式,我們就可以判斷一個物件是否是“可呼叫”物件。

小結

Python的class允許定義許多定製方法,可以讓我們非常方便地生成特定的類。

本節介紹的是最常用的幾個定製方法,還有很多可定製的方法,請參考https://docs.python.org/zh-cn/3/reference/datamodel.html#special-method-names