1. 程式人生 > 程式設計 >詳解字串在Python內部是如何省記憶體的

詳解字串在Python內部是如何省記憶體的

起步

Python3 起,str 就採用了 Unicode 編碼(注意這裡並不是 utf8 編碼,儘管 .py 檔案預設編碼是 utf8 )。 每個標準 Unicode 字元佔用 4 個位元組。這對於記憶體來說,無疑是一種浪費。

Unicode 是表示了一種字符集,而為了傳輸方便,衍生出裡如 utf8,utf16 等編碼方案來節省儲存空間。Python內部儲存字串也採用了類似的形式。

三種內部表示Unicode字串

為了減少記憶體的消耗,Python使用了三種不同單位長度來表示字串:

  • 每個字元 1 個位元組(Latin-1)
  • 每個字元 2 個位元組(UCS-2)
  • 每個字元 4 個位元組(UCS-4)

原始碼中定義字串結構體:

# Include/unicodeobject.h
typedef uint32_t Py_UCS4;
typedef uint16_t Py_UCS2;
typedef uint8_t Py_UCS1;

# Include/cpython/unicodeobject.h
typedef struct {
  PyCompactUnicodeObject _base;
  union {
    void *any;
    Py_UCS1 *latin1;
    Py_UCS2 *ucs2;
    Py_UCS4 *ucs4;
  } data;           /* Canonical,smallest-form Unicode buffer */
} PyUnicodeObject;

如果字串中所有字元都在 ascii 碼範圍內,那麼就可以用佔用 1 個位元組的 Latin-1 編碼進行儲存。而如果字串中存在了需要佔用兩個位元組(比如中文字元),那麼整個字串就將採用佔用 2 個位元組 UCS-2 編碼進行儲存。

這點可以通過 sys.getsizeof 函式外部窺探來驗證這個結論:

詳解字串在Python內部是如何省記憶體的

如圖,儲存 'zh' 所需的儲存空間比 'z' 多 1 個位元組, h 在這裡佔了 1 個位元組;

儲存 'z中' 所需的儲存空間比 '中' 多了 2 個位元組,z 在這裡佔了 2 個位元組。

大多數的自然語言採用 2 位元組的編碼就夠了。但如果有一個 1G 的 ascii 文字載入到記憶體後,在文字中插入了一個 emoji 表情,那麼字串所需的空間將擴大到 4 倍,是不是很驚喜。

為什麼內部不採用 utf8 進行編碼

最受歡迎的 Unicode 編碼方案,Python內部卻不使用它,為什麼?

這裡就得說下 utf8 編碼帶來的缺點。這種編碼方案每個字元的佔用位元組長度是變化的,這就導致了無法按所以隨機訪問單個字元,例如 string[n] (使用utf8編碼)則需要先統計前n個字元佔用的位元組長度。所以由 O(1) 變成了 O(n) ,這更無法讓人接受。

因此Python內部採用了定長的方式儲存字串。

字串駐留機制

另一個節省記憶體的方式就是將一些短小的字串做成池,當程式要建立字串物件前檢查池中是否有滿足的字串。在內部中,僅包含下劃線(_)、字母 和 數字 的長度不高過 20 的字串才能駐留。駐留是在程式碼編譯期間進行的,程式碼中的如下會進行駐留檢查:

  • 空字串 '' 及所有;
  • 變數名;
  • 引數名;
  • 字串常量(程式碼中定義的所有字串);
  • 字典鍵;
  • 屬性名稱;

駐留機制節省大量的重複字串記憶體。在內部,字串駐留池由一個全域性的 dict 維護,該欄位將字串用作鍵:

void PyUnicode_InternInPlace(PyObject **p)
{
  PyObject *s = *p;
  PyObject *t;

  if (s == NULL || !PyUnicode_Check(s))
    return;

  // 對PyUnicodeObjec進行型別和狀態檢查
  if (!PyUnicode_CheckExact(s))
    return;
  if (PyUnicode_CHECK_INTERNED(s))
    return;
  // 建立intern機制的dict
  if (interned == NULL) {
    interned = PyDict_New();
    if (interned == NULL) {
      PyErr_Clear(); /* Don't leave an exception */
      return;
    }
  }

  // 物件是否存在於inter中
  t = PyDict_SetDefault(interned,s,s);

  // 存在, 調整引用計數
  if (t != s) {
    Py_INCREF(t);
    Py_SETREF(*p,t);
    return;
  }
  /* The two references in interned are not counted by refcnt.
    The deallocator will take care of this */
  Py_REFCNT(s) -= 2;
  _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}

變數 interned 就是全域性存放字串池的字典的變數名 interned = PyDict_New(),為了讓 intern 機制中的字串不被回收,設定字典時 PyDict_SetDefault(interned,s); 將字串作為鍵同時也作為值進行設定,這樣對於字串物件的引用計數就會進行兩次 +1 操作,這樣存於字典中的物件在程式結束前永遠不會為 0,這也是 y_REFCNT(s) -= 2; 將計數減 2 的原因。

從函式引數中可以看到其實字串物件還是被建立了,內部其實始終會為字串建立物件,但經過 inter 機制檢查後,臨時建立的字串會因引用計數為 0 而被銷燬,臨時變數在記憶體中曇花一現然後迅速消失。

字串緩衝池

除了字串駐留池,Python 還會儲存所有 ascii 碼內的單個字元:

static PyObject *unicode_latin1[256] = {NULL};

如果字串其實是一個字元,那麼優先從緩衝池中獲取:

[unicodeobjec.c]
PyObject * PyUnicode_DecodeUTF8Stateful(const char *s,Py_ssize_t size,const char *errors,Py_ssize_t *consumed)
{
  ...

  /* ASCII is equivalent to the first 128 ordinals in Unicode. */
  if (size == 1 && (unsigned char)s[0] < 128) {
    return get_latin1_char((unsigned char)s[0]);
  }
  ...
}

然後再經過 intern 機制後被儲存到 intern 池中,這樣駐留池中和緩衝池中,兩者都是指向同一個字串物件了。

嚴格來說,這個單字元緩衝池並不是省記憶體的方案,因為從中取出的物件幾乎都會儲存到緩衝池中,這個方案是為了減少字串物件的建立。

總結

本文介紹了兩種是節省記憶體的方案。一個字串的每個字元在佔用空間大小是相同的,取決於字串中的最大字元。

短字串會放到一個全域性的字典中,該字典中的字串成了單例模式,從而節省記憶體。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支援我們。