1. 程式人生 > 實用技巧 >Python的 “記憶體管理機制”,轉載,記憶體洩漏時感覺應該看下

Python的 “記憶體管理機制”,轉載,記憶體洩漏時感覺應該看下

轉自:https://mp.weixin.qq.com/s/PGfpBKyzaRkKPYEI72c-Nw

什麼是記憶體管理器(what)

Python作為一個高層次的結合瞭解釋性、編譯性、互動性和麵向物件的指令碼語言,與大多數程式語言不同,Python中的變數無需事先申明,變數無需指定型別,程式設計師無需關心記憶體管理,Python直譯器給你自動回收。開發人員不用過多的關心記憶體管理機制,這一切全部由python記憶體管理器承擔了複雜的記憶體管理工作。

記憶體不外乎建立和銷燬兩部分,本文將圍繞python的記憶體池和垃圾回收兩部分進行分析。

Python記憶體池

為什麼要引入記憶體池(why)

當建立大量消耗小記憶體的物件時,頻繁呼叫new/malloc會導致大量的記憶體碎片,致使效率降低。記憶體池的作用就是預先在記憶體中申請一定數量的,大小相等的記憶體塊留作備用,當有新的記憶體需求時,就先從記憶體池中分配記憶體給這個需求,不夠之後再申請新的記憶體。這樣做最顯著的優勢就是能夠減少記憶體碎片,提升效率。

python中的記憶體管理機制為Pymalloc

記憶體池是如何工作的(how)

首先,我們看一張CPython(python直譯器)的記憶體架構圖:

  • python的物件管理主要位於Level+1~Level+3層

  • Level+3層:對於python內建的物件(比如int,dict等)都有獨立的私有記憶體池,物件之間的記憶體池不共享,即int釋放的記憶體,不會被分配給float使用

  • Level+2層:當申請的記憶體大小小於256KB時,記憶體分配主要由 Python 物件分配器(Python’s object allocator)實施

  • Level+1層:當申請的記憶體大小大於256KB時,由Python原生的記憶體分配器進行分配,本質上是呼叫C標準庫中的malloc/realloc等函式

關於釋放記憶體方面,當一個物件的引用計數變為0時,Python就會呼叫它的解構函式。呼叫解構函式並不意味著最終一定會呼叫free來釋放記憶體空間,如果真是這樣的話,那頻繁地申請、釋放記憶體空間會使Python的執行效率大打折扣。因此在析構時也採用了記憶體池機制,從記憶體池申請到的記憶體會被歸還到記憶體池中,以避免頻繁地申請和釋放動作。

垃圾回收機制

Python的垃圾回收機制採用引用計數機制為主,標記-清除和分代回收機制為輔的策略。其中,標記-清除機制用來解決計數引用帶來的迴圈引用而無法釋放記憶體的問題,分代回收機制是為提升垃圾回收的效率。

引用計數

Python通過引用計數來儲存記憶體中的變數追蹤,即記錄該物件被其他使用的物件引用的次數。

Python中有個內部跟蹤變數叫做引用計數器,每個變數有多少個引用,簡稱引用計數。當某個物件的引用計數為0時,就列入了垃圾回收佇列。

  1. >>> a=[1,2]

  2. >>> import sys

  3. >>> sys.getrefcount(a) ## 獲取物件a的引用次數

  4. 2

  5. >>> b=a

  6. >>> sys.getrefcount(a)

  7. 3

  8. >>> del b ## 刪除b的引用

  9. >>> sys.getrefcount(a)

  10. 2

  11. >>> c=list()

  12. >>> c.append(a) ## 加入到容器中

  13. >>> sys.getrefcount(a)

  14. 3

  15. >>> del c ## 刪除容器,引用-1

  16. >>> sys.getrefcount(a)

  17. 2

  18. >>> b=a

  19. >>> sys.getrefcount(a)

  20. 3

  21. >>> a=[3,4] ## 重新賦值

  22. >>> sys.getrefcount(a)

  23. 2

注意:當把a作為引數傳遞給getrefcount時,會產生一個臨時的引用,因此得出來的結果比真實情況+1

  • 引用計數增加的情況:

  1. 一個物件被分配給一個新的名字(例如:a=[1,2])

  2. 將其放入一個容器中(如列表、元組或字典)(例如:c.append(a))

  • 引用計數減少的情況:

  1. 使用del語句對物件別名顯式的銷燬(例如:del b)

  2. 物件所在的容器被銷燬或從容器中刪除物件(例如:del c )

  3. 引用超出作用域或被重新賦值(例如:a=[3,4])

引用計數能夠解決大多數垃圾回收的問題,但是遇到兩個物件相互引用的情況,del語句可以減少引用次數,但是引用計數不會歸0,物件也就不會被銷燬,從而造成了記憶體洩漏問題。針對該情況,Python引入了標記-清除機制

標記-清除

標記-清除用來解決引用計數機制產生的迴圈引用,進而導致記憶體洩漏的問題 。迴圈引用只有在容器物件才會產生,比如字典,元組,列表等。

顧名思義,該機制在進行垃圾回收時分成了兩步,分別是:

  • 標記階段,遍歷所有的物件,如果是可達的(reachable),也就是還有物件引用它,那麼就標記該物件為可達

  • 清除階段,再次遍歷物件,如果發現某個物件沒有標記為可達(即為Unreachable),則就將其回收

  1. >>> a=[1,2]

  2. >>> b=[3,4]

  3. >>> sys.getrefcount(a)

  4. 2

  5. >>> sys.getrefcount(b)

  6. 2

  7. >>> a.append(b)

  8. >>> sys.getrefcount(b)

  9. 3

  10. >>> b.append(a)

  11. >>> sys.getrefcount(a)

  12. 3

  13. >>> del a

  14. >>> del b

  • a引用b,b引用a,此時兩個物件各自被引用了2次(去除getrefcout()的臨時引用)

  • 執行del之後,物件a,b的引用次數都-1,此時各自的引用計數器都為1,陷入迴圈引用

  • 標記:找到其中的一端a,因為它有一個對b的引用,則將b的引用計數-1

  • 標記:再沿著引用到b,b有一個a的引用,將a的引用計數-1,此時物件a和b的引用次數全部為0,被標記為不可達(Unreachable)

  • 清除: 被標記為不可達的物件就是真正需要被釋放的物件

上面描述的垃圾回收的階段,會暫停整個應用程式,等待標記清除結束後才會恢復應用程式的執行。為了減少應用程式暫停的時間,Python 通過“分代回收”(Generational Collection)以空間換時間的方法提高垃圾回收效率。

分代回收

分代回收是基於這樣的一個統計事實,對於程式,存在一定比例的記憶體塊的生存週期比較短;而剩下的記憶體塊,生存週期會比較長,甚至會從程式開始一直持續到程式結束。生存期較短物件的比例通常在 80%~90%之間。因此,簡單地認為:物件存在時間越長,越可能不是垃圾,應該越少去收集。這樣在執行標記-清除演算法時可以有效減小遍歷的物件數,從而提高垃圾回收的速度,是一種以空間換時間的方法策略

Python將所有的物件分為年輕代(第0代)、中年代(第1代)、老年代(第2代)三代。所有的新建物件預設是 第0代物件。當在第0代的gc掃描中存活下來的物件將被移至第1代,在第1代的gc掃描中存活下來的物件將被移至第2代。

gc掃描次數(第0代>第1代>第2代)

當某一代中被分配的物件與被釋放的物件之差達到某一閾值時,就會觸發當前一代的gc掃描。當某一代被掃描時,比它年輕的一代也會被掃描,因此,第2代的gc掃描發生時,第0,1代的gc掃描也會發生,即為全代掃描。

  1. >>> import gc

  2. >>> gc.get_threshold() ## 分代回收機制的引數閾值設定

  3. (700, 10, 10)

  • 700=新分配的物件數量-釋放的物件數量,第0代gc掃描被觸發

  • 第一個10:第0代gc掃描發生10次,則第1代的gc掃描被觸發

  • 第二個10:第1代的gc掃描發生10次,則第2代的gc掃描被觸發

思考

在標記-清除中,如果物件c也引用a,執行del操作後,會發生什麼?

物件a,b,c的引用關係如下圖所示:

  1. >>> a=[1,2]

  2. >>> b=[3,4]

  3. >>> c=a

  4. >>> a.append(b)

  5. >>> b.append(a)

  • ref_count表示引用計數

  • 物件a,b,c全部為reachable

執行del之後,引用關係如下圖所示:

  1. >>> del a

  2. >>> del b

  • a,b,c的ref_count減1

執行gc掃描

  • 標記: a引用b,將b的refcount減1到0,b引用a,將a的refcount減1到1,將b放在unreachable下

  • 再迴圈:因為a是可達的,所以會遞迴地將從a節點出發可以達到的所有節點標記為reachable下,即為:

  • 清除:unreachable下沒有可清除的物件,因此a,b,c物件不會被清除

總結

總體而言,python通過記憶體池來減少記憶體碎片化,提高執行效率。主要通過引用計數來完成垃圾回收,通過標記-清除解決容器物件迴圈引用造成的問題,通過分代回收提高垃圾回收的效率。