Python爬蟲技術--基礎篇--面向物件程式設計(中)
1.繼承與多型
在OOP程式設計中,當我們定義一個class的時候,可以從某個現有的class繼承,新的class稱為子類(Subclass),而被繼承的class稱為基類、父類或超類(Base class、Super class)。
比如,我們已經編寫了一個名為Animal
的class,有一個run()
方法可以直接列印:
class Animal(object):
def run(self):
print('Animal is running...')
當我們需要編寫Dog
和Cat
類時,就可以直接從Animal
類繼承:
class Dog(Animal):
pass
class Cat(Animal):
pass
對於Dog
來說,Animal
就是它的父類,對於Animal
來說,Dog
就是它的子類。Cat
和Dog
類似。
繼承有什麼好處?最大的好處是子類獲得了父類的全部功能。由於Animial
實現了run()
方法,因此,Dog
和Cat
作為它的子類,什麼事也沒幹,就自動擁有了run()
方法:
dog = Dog()
dog.run()
cat = Cat()
cat.run()
執行結果如下:
Animal is running...
Animal is running...
當然,也可以對子類增加一些方法,比如Dog類:
class Dog(Animal):
def run(self):
print('Dog is running...')
def eat(self):
print('Eating meat...')
繼承的第二個好處需要我們對程式碼做一點改進。你看到了,無論是Dog
還是Cat
,它們run()
的時候,顯示的都是Animal is running...
,符合邏輯的做法是分別顯示Dog is running...
和Cat is running...
,因此,對Dog
和Cat
類改進如下:
class Dog(Animal):
def run(self):
print('Dog is running...')
class Cat(Animal):
def run(self):
print('Cat is running...')
再次執行,結果如下:
Dog is running...
Cat is running...
當子類和父類都存在相同的run()
方法時,我們說,子類的run()
覆蓋了父類的run()
,在程式碼執行的時候,總是會呼叫子類的run()
。這樣,我們就獲得了繼承的另一個好處:多型。
要理解什麼是多型,我們首先要對資料型別再作一點說明。當我們定義一個class的時候,我們實際上就定義了一種資料型別。我們定義的資料型別和Python自帶的資料型別,比如str、list、dict沒什麼兩樣:
a = list() # a是list型別
b = Animal() # b是Animal型別
c = Dog() # c是Dog型別
判斷一個變數是否是某個型別可以用isinstance()
判斷:
>>> isinstance(a, list)
True
>>> isinstance(b, Animal)
True
>>> isinstance(c, Dog)
True
看來a
、b
、c
確實對應著list
、Animal
、Dog
這3種類型。
但是等等,試試:
>>> isinstance(c, Animal)
True
看來c
不僅僅是Dog
,c
還是Animal
!
不過仔細想想,這是有道理的,因為Dog
是從Animal
繼承下來的,當我們建立了一個Dog
的例項c
時,我們認為c
的資料型別是Dog
沒錯,但c
同時也是Animal
也沒錯,Dog
本來就是Animal
的一種!
所以,在繼承關係中,如果一個例項的資料型別是某個子類,那它的資料型別也可以被看做是父類。但是,反過來就不行:
>>> b = Animal()
>>> isinstance(b, Dog)
False
Dog
可以看成Animal
,但Animal
不可以看成Dog
。
要理解多型的好處,我們還需要再編寫一個函式,這個函式接受一個Animal
型別的變數:
def run_twice(animal):
animal.run()
animal.run()
當我們傳入Animal
的例項時,run_twice()
就打印出:
>>> run_twice(Animal())
Animal is running...
Animal is running...
當我們傳入Dog
的例項時,run_twice()
就打印出:
>>> run_twice(Dog())
Dog is running...
Dog is running...
當我們傳入Cat
的例項時,run_twice()
就打印出:
>>> run_twice(Cat())
Cat is running...
Cat is running...
看上去沒啥意思,但是仔細想想,現在,如果我們再定義一個Tortoise
型別,也從Animal
派生:
class Tortoise(Animal):
def run(self):
print('Tortoise is running slowly...')
當我們呼叫run_twice()
時,傳入Tortoise
的例項:
>>> run_twice(Tortoise())
Tortoise is running slowly...
Tortoise is running slowly...
你會發現,新增一個Animal
的子類,不必對run_twice()
做任何修改,實際上,任何依賴Animal
作為引數的函式或者方法都可以不加修改地正常執行,原因就在於多型。
多型的好處就是,當我們需要傳入Dog
、Cat
、Tortoise
……時,我們只需要接收Animal
型別就可以了,因為Dog
、Cat
、Tortoise
……都是Animal
型別,然後,按照Animal
型別進行操作即可。由於Animal
型別有run()
方法,因此,傳入的任意型別,只要是Animal
類或者子類,就會自動呼叫實際型別的run()
方法,這就是多型的意思:
對於一個變數,我們只需要知道它是Animal
型別,無需確切地知道它的子型別,就可以放心地呼叫run()
方法,而具體呼叫的run()
方法是作用在Animal
、Dog
、Cat
還是Tortoise
物件上,由執行時該物件的確切型別決定,這就是多型真正的威力:呼叫方只管呼叫,不管細節,而當我們新增一種Animal
的子類時,只要確保run()
方法編寫正確,不用管原來的程式碼是如何呼叫的。這就是著名的“開閉”原則:
對擴充套件開放:允許新增Animal
子類;
對修改封閉:不需要修改依賴Animal
型別的run_twice()
等函式。
繼承還可以一級一級地繼承下來,就好比從爺爺到爸爸、再到兒子這樣的關係。而任何類,最終都可以追溯到根類object,這些繼承關係看上去就像一顆倒著的樹。比如如下的繼承樹:
靜態語言 vs 動態語言
對於靜態語言(例如Java)來說,如果需要傳入Animal
型別,則傳入的物件必須是Animal
型別或者它的子類,否則,將無法呼叫run()
方法。
對於Python這樣的動態語言來說,則不一定需要傳入Animal
型別。我們只需要保證傳入的物件有一個run()
方法就可以了:
class Timer(object):
def run(self):
print('Start...')
這就是動態語言的“鴨子型別”,它並不要求嚴格的繼承體系,一個物件只要“看起來像鴨子,走起路來像鴨子”,那它就可以被看做是鴨子。
Python的“file-like object“就是一種鴨子型別。對真正的檔案物件,它有一個read()
方法,返回其內容。但是,許多物件,只要有read()
方法,都被視為“file-like object“。許多函式接收的引數就是“file-like object“,你不一定要傳入真正的檔案物件,完全可以傳入任何實現了read()
方法的物件。
小結
繼承可以把父類的所有功能都直接拿過來,這樣就不必重零做起,子類只需要新增自己特有的方法,也可以把父類不適合的方法覆蓋重寫。
動態語言的鴨子型別特點決定了繼承不像靜態語言那樣是必須的。