1. 程式人生 > 實用技巧 >Python爬蟲技術--基礎篇--面向物件程式設計(中)

Python爬蟲技術--基礎篇--面向物件程式設計(中)

1.繼承與多型

在OOP程式設計中,當我們定義一個class的時候,可以從某個現有的class繼承,新的class稱為子類(Subclass),而被繼承的class稱為基類、父類或超類(Base class、Super class)。

比如,我們已經編寫了一個名為Animal的class,有一個run()方法可以直接列印:

class Animal(object):
    def run(self):
        print('Animal is running...')

當我們需要編寫DogCat類時,就可以直接從Animal類繼承:

class Dog(Animal):
    pass

class Cat(Animal):
    pass

對於Dog來說,Animal就是它的父類,對於Animal來說,Dog就是它的子類。CatDog類似。

繼承有什麼好處?最大的好處是子類獲得了父類的全部功能。由於Animial實現了run()方法,因此,DogCat作為它的子類,什麼事也沒幹,就自動擁有了run()方法:

dog = Dog()
dog.run()

cat = Cat()
cat.run()

執行結果如下:

Animal is running...
Animal is running...

當然,也可以對子類增加一些方法,比如Dog類:

class Dog(Animal):

    def run(self):
        print('Dog is running...')

    def eat(self):
        print('Eating meat...')

繼承的第二個好處需要我們對程式碼做一點改進。你看到了,無論是Dog還是Cat,它們run()的時候,顯示的都是Animal is running...,符合邏輯的做法是分別顯示Dog is running...Cat is running...,因此,對DogCat類改進如下:

class Dog(Animal):

    def run(self):
        print('Dog is running...')

class Cat(Animal):

    def run(self):
        print('Cat is running...')

再次執行,結果如下:

Dog is running...
Cat is running...

當子類和父類都存在相同的run()方法時,我們說,子類的run()覆蓋了父類的run(),在程式碼執行的時候,總是會呼叫子類的run()。這樣,我們就獲得了繼承的另一個好處:多型。

要理解什麼是多型,我們首先要對資料型別再作一點說明。當我們定義一個class的時候,我們實際上就定義了一種資料型別。我們定義的資料型別和Python自帶的資料型別,比如str、list、dict沒什麼兩樣:

a = list() # a是list型別
b = Animal() # b是Animal型別
c = Dog() # c是Dog型別

判斷一個變數是否是某個型別可以用isinstance()判斷:

>>> isinstance(a, list)
True
>>> isinstance(b, Animal)
True
>>> isinstance(c, Dog)
True

看來abc確實對應著listAnimalDog這3種類型。

但是等等,試試:

>>> isinstance(c, Animal)
True

看來c不僅僅是Dogc還是Animal

不過仔細想想,這是有道理的,因為Dog是從Animal繼承下來的,當我們建立了一個Dog的例項c時,我們認為c的資料型別是Dog沒錯,但c同時也是Animal也沒錯,Dog本來就是Animal的一種!

所以,在繼承關係中,如果一個例項的資料型別是某個子類,那它的資料型別也可以被看做是父類。但是,反過來就不行

>>> b = Animal()
>>> isinstance(b, Dog)
False

Dog可以看成Animal,但Animal不可以看成Dog

要理解多型的好處,我們還需要再編寫一個函式,這個函式接受一個Animal型別的變數:

def run_twice(animal):
    animal.run()
    animal.run()

當我們傳入Animal的例項時,run_twice()就打印出:

>>> run_twice(Animal())
Animal is running...
Animal is running...

當我們傳入Dog的例項時,run_twice()就打印出:

>>> run_twice(Dog())
Dog is running...
Dog is running...

當我們傳入Cat的例項時,run_twice()就打印出:

>>> run_twice(Cat())
Cat is running...
Cat is running...

看上去沒啥意思,但是仔細想想,現在,如果我們再定義一個Tortoise型別,也從Animal派生:

class Tortoise(Animal):
    def run(self):
        print('Tortoise is running slowly...')

當我們呼叫run_twice()時,傳入Tortoise的例項:

>>> run_twice(Tortoise())
Tortoise is running slowly...
Tortoise is running slowly...

你會發現,新增一個Animal的子類,不必對run_twice()做任何修改,實際上,任何依賴Animal作為引數的函式或者方法都可以不加修改地正常執行,原因就在於多型。

多型的好處就是,當我們需要傳入DogCatTortoise……時,我們只需要接收Animal型別就可以了,因為DogCatTortoise……都是Animal型別,然後,按照Animal型別進行操作即可。由於Animal型別有run()方法,因此,傳入的任意型別,只要是Animal類或者子類,就會自動呼叫實際型別的run()方法,這就是多型的意思:

對於一個變數,我們只需要知道它是Animal型別,無需確切地知道它的子型別,就可以放心地呼叫run()方法,而具體呼叫的run()方法是作用在AnimalDogCat還是Tortoise物件上,由執行時該物件的確切型別決定,這就是多型真正的威力:呼叫方只管呼叫,不管細節,而當我們新增一種Animal的子類時,只要確保run()方法編寫正確,不用管原來的程式碼是如何呼叫的。這就是著名的“開閉”原則

對擴充套件開放:允許新增Animal子類;

對修改封閉:不需要修改依賴Animal型別的run_twice()等函式。

繼承還可以一級一級地繼承下來,就好比從爺爺到爸爸、再到兒子這樣的關係。而任何類,最終都可以追溯到根類object,這些繼承關係看上去就像一顆倒著的樹。比如如下的繼承樹:

靜態語言 vs 動態語言

對於靜態語言(例如Java)來說,如果需要傳入Animal型別,則傳入的物件必須是Animal型別或者它的子類,否則,將無法呼叫run()方法。

對於Python這樣的動態語言來說,則不一定需要傳入Animal型別。我們只需要保證傳入的物件有一個run()方法就可以了:

class Timer(object):
    def run(self):
        print('Start...')

這就是動態語言的“鴨子型別”,它並不要求嚴格的繼承體系,一個物件只要“看起來像鴨子,走起路來像鴨子”,那它就可以被看做是鴨子。

Python的“file-like object“就是一種鴨子型別。對真正的檔案物件,它有一個read()方法,返回其內容。但是,許多物件,只要有read()方法,都被視為“file-like object“。許多函式接收的引數就是“file-like object“,你不一定要傳入真正的檔案物件,完全可以傳入任何實現了read()方法的物件。

小結

繼承可以把父類的所有功能都直接拿過來,這樣就不必重零做起,子類只需要新增自己特有的方法,也可以把父類不適合的方法覆蓋重寫。

動態語言的鴨子型別特點決定了繼承不像靜態語言那樣是必須的