Python中 '==' 與'is' 以及它們背後的故事
摘要
比較判斷邏輯是在代碼中經常使用的,在Python中常用 ‘==‘ 和 is 來做比較判斷。
- == : 雙等號是用來比較變量所指向內存單元中的值是否相等,它只關心值,並不在意值的內存地址,也就是說可以是兩個不同內存地址的值相等。
- is : 它用來比較兩個變量是不是指向同一個內存單元,雖然它也可以比較值,但是它更加關心的是內存地址是否一樣,當然內存地址一樣值也就是一樣的。
關於整數
# 按照邏輯,下面的代碼很正常 >>> a = 1 >>> b = 1 >>> a == b True >>> a isb True >>> id(a) 1570522768 >>> id(b) 1570522768 # 下面就是顛覆認知的時刻 >>> a = 1000 >>> b = 1000 >>> a == b True >>> a is b False >>> id(a) 81183344 >>> id(b) 81183376
是的,兩個相同值的變量,內存地址不一樣了。當然產生這個現象的前提條件是用python命令行去執行,而不是用pycharm之類的編輯器。其根本原因也就是python解釋器的問題,涉及到python的垃圾回收機制。上面現象的原因是因為一個叫做小整數對象池
Python為了優化速度,會把 [-5, 256] 之間的數據提前存放在小整數池中,如果程序使用到小整數池中的數據,是不會開辟新的內存空間去創建,而是指向對象池中的同一份數據,也就是說有N個變量等於1的話,那麽這N個變量的內存地址都會指向小整數池中的1位置。小整數池的使用是為了避免整數頻繁申請和銷毀內存空間。小整數池是提前建立好的,不會被垃圾回收。
當數據超出小整數池後,也就是範圍到了大整數對象池中了,系統每次都會申請一塊新內存來存儲數據,這個‘is‘不等於‘==‘的現象也就不存在了。
pycharm中,每次運行是所有代碼都加載到內存中,屬於一個整體,並不存在這個現象。
關於字符串
# 先來個正常的 >>> a = ‘qwe‘ >>> b = ‘qwe‘ >>> a == b True >>> a is b True >>> id(a) 81797024 >>> id(b) 81797024 # 感覺沒什麽變化,那就加長一些 >>> a = ‘q‘ * 20 >>> b = ‘q‘ * 20 >>> a is b True >>> a == b True # 在長點就不一樣了 >>> b = ‘q‘ * 21 >>> a = ‘q‘ * 21 >>> a is b False >>> a == b True >>> id(a) 81811696 >>> id(b) 81811600
產生原因:Python的intern機制。
簡單理解有點像緩存的意思,當需要使用相同的字符串時(變量賦值),直接從緩存中拿出來用而不是重新創建,這樣可以避免頻繁的創建和銷毀,提升效率,節約內存。缺點是拼接字符串,對字符串修改之類的影響性能。因為是不可變的,所以對字符串修改不是inplace操作,而是新建對象。這也就是拼接字符串的時候不建議是用 ‘+‘ 方法,而是推薦用join 函數,join函數是先計算出所有字符串的長度,然後一一拷貝,而只創建一次對象。每個‘+‘方法都是創建一次新對象。當字符串長度超過20時,也不會使用intern機制。
並不是所有的字符串都會采用intern機制。只包含下劃線,字母(包含大小寫),數字的字符串才會被intern。空格和一些特殊字符都不在內。也就是說字符串中如果包含空格和其他一些特殊符號(除去下劃線),python都不會應用intern機制,而是直接開辟新的內存空間去存儲。
# 註意下面這種看似合理的字符串intern >>> ‘ab‘ + ‘c‘ is ‘abc‘ # 這裏的字符串,‘ab‘ + ‘c‘ 是在complie time 求值的,被替換成了‘abc‘ True >>> n1 = ‘ab‘ >>> n2 = ‘abc‘ >>> n1 + ‘c‘ is n2 # n1 + ‘c‘ 是在run-time拼接,導致沒有被自動intern False >>> n1 + ‘c‘ is ‘abc‘ False >>> n1 + ‘c‘ == ‘abc‘ True >>> n1 + ‘c‘ == n2 True
Python中 '==' 與'is' 以及它們背後的故事