1. 程式人生 > >Python兩個物件相等的原理

Python兩個物件相等的原理

概述

  大部分的python程式設計師平時程式設計的時候,很少關心兩個物件為什麼相等,因為教程和經驗來說,他們就應該相等,比如1==1就應該返回True,可是當我們想要定義自己的物件或者修改預設的物件行為時,通常會因為不瞭解原理而導致各種奇奇怪怪的錯誤。

兩個物件如何相等

  兩個物件如何才能相等要比我們想象的複雜很多,但核心的方法是重寫eq方法,這個方法返回True,則表示兩個物件相等,否則,就不相等。相反的,如果兩個物件不相等,則重寫ne方法。
  預設情況下,如果你沒有實現這個方法,則使用父類(object)的方法。父類的方法比較是的兩個物件的ID(可以通過id方法獲取物件ID),也就是說,如果物件的ID相等,則兩個物件也就相等。因此,我們可以得知,預設情況下,物件只和自己相等。例如:

>>> class A(object):
...     pass
...
>>>
>>> a = A()
>>> b = A()
>>> a == a
True
>>> a == b
False
>>> id(a)
4343310992
>>> id(b)
4343310928

  Python2程式設計師經常犯的一個錯誤是,只重寫了eq方法,而沒有重寫ne方法,導致不可預計的錯誤。而Python3會自動重寫ne方法,如果你沒有重寫的話。

物件的Hash方法

  Python裡可Hash的物件,都有一個數字ID代表了它在python裡的值,這個ID是由物件的hash方法返回的。因此,如果想讓一個物件可Hash,那必須實現hash方法和之前提到的eq方法。和物件相等一樣,預設情況下,物件的hash方法繼承自Object物件,而Object物件的hash方法只計算物件ID,因此兩個物件始終擁有兩個不一樣的hash id,不管他們是多麼相似。
  當我們把一個不可Hash的物件加入到set或者dict時,會發生什麼了?

>>> set().add({})
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: unhashable type: 'dict'
unhashable type: 'dict'

原因是set()和dict()使用物件的hash值作為內部索引,以便能快速索引到指定物件。因此,同一個物件返回相同的hash id就很重要了。

物件的Hash值在它的生命週期內不能改變

  如果你想定義一個比較完美的物件,並且實現了eqhash方法來定義物件的比較行為和hash值,那麼你就需要保證物件的相關屬性不能發生更改。不然會導致很詭異的錯誤,比如下面的例子。

>>> class C:
...     def __init__(self, x):
...         self.x = x
...     def __repr__(self):
...         return "C({"+str(self.x)+"})"
...     def __hash__(self):
...         return hash(self.x)
...     def __eq__(self, other):
...         return (
...             self.__class__ == other.__class__ and
...             self.x == other.x
...         )
>>> d = dict()
>>> s = set()
>>> c = C(1)
>>> d[c] = 42
>>> s.add(c)
>>> d, s
({C(1): 42}, {C(1)})
>>> c in s and c in d  # c is in both!
True
>>> c.x = 2
>>> c in s or c in d   # c is in neither!?
False
>>> d, s
({C(2): 42}, {C(2)})   # but...it's right there!

在我們沒有修改物件的屬性時(c.x=2)之前,所有行為都符合預期。當我們通過c.x=2時修改屬性後,執行c in s or c in d返回False,但是內容卻是修改後的,是不是很奇怪。這也就解釋了為什麼str、tuple是可Hash的,而list和dict是不可hash的。

因此我們可以得出結論,如果兩個物件相等的話,那它們的hash值必然也是相等的。

總結

講了這麼多有什麼用了。
1. 當我們遇到unhashable type這個異常時,我們能夠知道為什麼報這個錯誤。
2. 如果定義了一個可比較的物件,那麼最好保證物件hash值相關的屬性在生命週期內不能發生改變,不然會發生意想不到的錯誤。

轉載自我的部落格捕蛇者說