詳解字串在Python內部是如何省記憶體的

阿新 • • 發佈：2020-02-04

起步

Python3 起，str 就採用了 Unicode 編碼（注意這裡並不是 utf8 編碼，儘管 .py 檔案預設編碼是 utf8 ）。每個標準 Unicode 字元佔用 4 個位元組。這對於記憶體來說，無疑是一種浪費。

Unicode 是表示了一種字符集，而為了傳輸方便，衍生出裡如 utf8,utf16 等編碼方案來節省儲存空間。Python內部儲存字串也採用了類似的形式。

三種內部表示Unicode字串

為了減少記憶體的消耗，Python使用了三種不同單位長度來表示字串：

每個字元 1 個位元組（Latin-1）
每個字元 2 個位元組（UCS-2）
每個字元 4 個位元組（UCS-4）

原始碼中定義字串結構體：

# Include/unicodeobject.h
typedef uint32_t Py_UCS4;
typedef uint16_t Py_UCS2;
typedef uint8_t Py_UCS1;

# Include/cpython/unicodeobject.h
typedef struct {
  PyCompactUnicodeObject _base;
  union {
    void *any;
    Py_UCS1 *latin1;
    Py_UCS2 *ucs2;
    Py_UCS4 *ucs4;
  } data;           /* Canonical,smallest-form Unicode buffer */
} PyUnicodeObject;

如果字串中所有字元都在 ascii 碼範圍內，那麼就可以用佔用 1 個位元組的 Latin-1 編碼進行儲存。而如果字串中存在了需要佔用兩個位元組（比如中文字元），那麼整個字串就將採用佔用 2 個位元組 UCS-2 編碼進行儲存。

這點可以通過 sys.getsizeof 函式外部窺探來驗證這個結論：

詳解字串在Python內部是如何省記憶體的

如圖，儲存 'zh' 所需的儲存空間比 'z' 多 1 個位元組， h 在這裡佔了 1 個位元組；

儲存 'z中' 所需的儲存空間比 '中' 多了 2 個位元組，z 在這裡佔了 2 個位元組。

大多數的自然語言採用 2 位元組的編碼就夠了。但如果有一個 1G 的 ascii 文字載入到記憶體後，在文字中插入了一個 emoji 表情，那麼字串所需的空間將擴大到 4 倍，是不是很驚喜。

為什麼內部不採用 utf8 進行編碼

最受歡迎的 Unicode 編碼方案，Python內部卻不使用它，為什麼？

這裡就得說下 utf8 編碼帶來的缺點。這種編碼方案每個字元的佔用位元組長度是變化的，這就導致了無法按所以隨機訪問單個字元，例如 string[n] （使用utf8編碼）則需要先統計前n個字元佔用的位元組長度。所以由 O(1) 變成了 O(n) ，這更無法讓人接受。

因此Python內部採用了定長的方式儲存字串。

字串駐留機制

另一個節省記憶體的方式就是將一些短小的字串做成池，當程式要建立字串物件前檢查池中是否有滿足的字串。在內部中，僅包含下劃線（_）、字母和數字的長度不高過 20 的字串才能駐留。駐留是在程式碼編譯期間進行的，程式碼中的如下會進行駐留檢查：

空字串 '' 及所有；
變數名；
引數名；
字串常量（程式碼中定義的所有字串）；
字典鍵；
屬性名稱；

駐留機制節省大量的重複字串記憶體。在內部，字串駐留池由一個全域性的 dict 維護，該欄位將字串用作鍵:

void PyUnicode_InternInPlace(PyObject **p)
{
  PyObject *s = *p;
  PyObject *t;

  if (s == NULL || !PyUnicode_Check(s))
    return;

  // 對PyUnicodeObjec進行型別和狀態檢查
  if (!PyUnicode_CheckExact(s))
    return;
  if (PyUnicode_CHECK_INTERNED(s))
    return;
  // 建立intern機制的dict
  if (interned == NULL) {
    interned = PyDict_New();
    if (interned == NULL) {
      PyErr_Clear(); /* Don't leave an exception */
      return;
    }
  }

  // 物件是否存在於inter中
  t = PyDict_SetDefault(interned,s,s);

  // 存在， 調整引用計數
  if (t != s) {
    Py_INCREF(t);
    Py_SETREF(*p,t);
    return;
  }
  /* The two references in interned are not counted by refcnt.
    The deallocator will take care of this */
  Py_REFCNT(s) -= 2;
  _PyUnicode_STATE(s).interned = SSTATE_INTERNED_MORTAL;
}

變數 interned 就是全域性存放字串池的字典的變數名 interned = PyDict_New()，為了讓 intern 機制中的字串不被回收，設定字典時 PyDict_SetDefault(interned,s); 將字串作為鍵同時也作為值進行設定，這樣對於字串物件的引用計數就會進行兩次 +1 操作，這樣存於字典中的物件在程式結束前永遠不會為 0，這也是 y_REFCNT(s) -= 2; 將計數減 2 的原因。

從函式引數中可以看到其實字串物件還是被建立了，內部其實始終會為字串建立物件，但經過 inter 機制檢查後，臨時建立的字串會因引用計數為 0 而被銷燬，臨時變數在記憶體中曇花一現然後迅速消失。

字串緩衝池

除了字串駐留池，Python 還會儲存所有 ascii 碼內的單個字元：

static PyObject *unicode_latin1[256] = {NULL};

如果字串其實是一個字元，那麼優先從緩衝池中獲取：

[unicodeobjec.c]
PyObject * PyUnicode_DecodeUTF8Stateful(const char *s,Py_ssize_t size,const char *errors,Py_ssize_t *consumed)
{
  ...

  /* ASCII is equivalent to the first 128 ordinals in Unicode. */
  if (size == 1 && (unsigned char)s[0] < 128) {
    return get_latin1_char((unsigned char)s[0]);
  }
  ...
}

然後再經過 intern 機制後被儲存到 intern 池中，這樣駐留池中和緩衝池中，兩者都是指向同一個字串物件了。

嚴格來說，這個單字元緩衝池並不是省記憶體的方案，因為從中取出的物件幾乎都會儲存到緩衝池中，這個方案是為了減少字串物件的建立。

總結

本文介紹了兩種是節省記憶體的方案。一個字串的每個字元在佔用空間大小是相同的，取決於字串中的最大字元。

短字串會放到一個全域性的字典中，該字典中的字串成了單例模式，從而節省記憶體。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

詳解字串在Python內部是如何省記憶體的

詳解字串在Python內部是如何省記憶體的

基於YUV 資料格式詳解及python實現方式

詳解在python操作資料庫中游標的使用方法

詳解mac python+selenium+Chrome 簡單案例

詳解使用Python下載檔案的幾種方法

詳解基於python的多張不同寬高圖片拼接成大圖

詳解基於python-django框架的支付寶支付案例

詳解在Python中以絕對路徑或者相對路徑匯入檔案的方法

詳解用Python進行時間序列預測的7種方法

詳解用Python呼叫百度地圖正/逆地理編碼API

詳解用Python爬蟲獲取百度企業信用中企業基本資訊

keras 兩種訓練模型方式詳解fit和fit_generator(節省記憶體)

BAT批處理中的字串處理詳解(字串擷取)

詳解在Python中使用Torchmoji將文字轉換為表情符號

設計模式詳解及Python實現

詳解使用Python寫一個向資料庫填充資料的小工具(推薦)

詳解用python -m http.server搭一個簡易的本地區域網

詳解基於python的全域性與區域性序列比對的實現(DNA)

詳解檢視Python直譯器路徑的兩種方式

詳解基於python的影象Gabor變換及特徵提取

詳解字串在Python內部是如何省記憶體的

相關推薦