深入淺出記憶體管理--記憶體節點(Node)

阿新 • • 發佈：2018-12-16

本文以Linux核心4.9來做介紹。

Node 結構體

核心中的節點是使用一個結構體struct pglist_data來進行管理的，它的組成如下所示，本文只會列出幾個關鍵成員，其餘成員待遇到時在做解釋：

 typedef struct pglist_data {
     struct zone node_zones[MAX_NR_ZONES];
     struct zonelist node_zonelists[MAX_ZONELISTS];
     int nr_zones;
 #ifdef CONFIG_FLAT_NODE_MEM_MAP /* means !SPARSEMEM */
     struct page *node_mem_map;
 #ifdef CONFIG_PAGE_EXTENSION
     struct page_ext *node_page_ext;
 #endif
 #endif
 #ifndef CONFIG_NO_BOOTMEM
     struct bootmem_data *bdata;
 #endif
 #ifdef CONFIG_MEMORY_HOTPLUG
     /*
      * Must be held any time you expect node_start_pfn, node_present_pages
      * or node_spanned_pages stay constant.  Holding this will also
      * guarantee that any pfn_valid() stays that way.
      *
      * pgdat_resize_lock() and pgdat_resize_unlock() are provided to
      * manipulate node_size_lock without checking for CONFIG_MEMORY_HOTPLUG.
      *
      * Nests above zone->lock and zone->span_seqlock
      */
     spinlock_t node_size_lock;
 #endif
     unsigned long node_start_pfn;
     unsigned long node_present_pages; /* total number of physical pages */
     unsigned long node_spanned_pages; /* total size of physical page
                          range, including holes */
     int node_id;
     wait_queue_head_t kswapd_wait;
     wait_queue_head_t pfmemalloc_wait;
     struct task_struct *kswapd; /* Protected by
                        mem_hotplug_begin/end() */
     int kswapd_order;
     enum zone_type kswapd_classzone_idx;
 
     int kswapd_failures;        /* Number of 'reclaimed == 0' runs */
 
 #ifdef CONFIG_COMPACTION
     int kcompactd_max_order;
     enum zone_type kcompactd_classzone_idx;
     wait_queue_head_t kcompactd_wait;
     struct task_struct *kcompactd;
 #endif
 #ifdef CONFIG_NUMA_BALANCING
     /* Lock serializing the migrate rate limiting window */
     spinlock_t numabalancing_migrate_lock;
 
     /* Rate limiting time interval */
     unsigned long numabalancing_migrate_next_window;
 
     /* Number of pages migrated during the rate limiting time interval */
     unsigned long numabalancing_migrate_nr_pages;
 #endif
     /*
      * This is a per-node reserve of pages that are not available
      * to userspace allocations.
      */
     unsigned long       totalreserve_pages;
 
 #ifdef CONFIG_NUMA
     /*
      * zone reclaim becomes active if more unmapped pages exist.
      */
     unsigned long       min_unmapped_pages;
     unsigned long       min_slab_pages;
 #endif /* CONFIG_NUMA */
 
     /* Write-intensive fields used by page reclaim */
     ZONE_PADDING(_pad1_)
     spinlock_t      lru_lock;
 
 #ifdef CONFIG_DEFERRED_STRUCT_PAGE_INIT
     /*
      * If memory initialisation on large machines is deferred then this
      * is the first PFN that needs to be initialised.
      */
     unsigned long first_deferred_pfn;
     /* Number of non-deferred pages */
     unsigned long static_init_pgcnt;
 #endif /* CONFIG_DEFERRED_STRUCT_PAGE_INIT */
 
 #ifdef CONFIG_TRANSPARENT_HUGEPAGE
     spinlock_t split_queue_lock;
     struct list_head split_queue;
     unsigned long split_queue_len;
 #endif
 
     /* Fields commonly accessed by the page reclaim scanner */
     struct lruvec       lruvec;
     /*
      * The target ratio of ACTIVE_ANON to INACTIVE_ANON pages on
      * this node's LRU.  Maintained by the pageout code.
      */
     unsigned int inactive_ratio;
 
     unsigned long       flags;
 
     ZONE_PADDING(_pad2_)
 
     /* Per-node vmstats */
     struct per_cpu_nodestat __percpu *per_cpu_nodestats;
     atomic_long_t       vm_stat[NR_VM_NODE_STAT_ITEMS];
 } pg_data_t;

node_zones[MAX_NR_ZONES];
該節點中所有管理區(ZONE)的描述符陣列,
node_zonelists[MAX_ZONELISTS];
頁分配器使用的結構體陣列，頁分配器會根據不同的GFP申請標誌來按照不同的順序掃描對應節點中的ZONE，而該結構體就是用於定製不同的順序。

 enum {
    ZONELIST_FALLBACK,  /* zonelist with fallback */
#ifdef CONFIG_NUMA
    /*
     * The NUMA zonelists are doubled because we need zonelists that
     * restrict the allocations to a single node for __GFP_THISNODE.
     */
    ZONELIST_NOFALLBACK,    /* zonelist without fallback (__GFP_THISNODE) */
#endif
    MAX_ZONELISTS
};

如上所示支援的分配方式有兩種，ZONELIST_FALLBACK和ZONELIST_NOFALLBACK，那麼根據不同的分配方式，對於ZONE的優先順序可能是不同的，這個陣列可以記錄下來不同策略對應的優先順序，所以這就是該成員存在的意義。

nr_zones
節點中存在的管理區數目，最大為MAX_NR_ZONES。
node_mem_map
節點中頁描述符陣列。
node_id
節點的id。
node_start_pfn
節點中的物理頁其實頁框。

系統中Node的定義

我們以ARM64平臺為例，它對系統中所有Node的定義：

 struct pglist_data *node_data[MAX_NUMNODES] __read_mostly;
 EXPORT_SYMBOL(node_data);
 
 
 static int cpu_to_node_map[NR_CPUS] = { [0 ... NR_CPUS-1] = NUMA_NO_NODE };

這裡定義了一個結構體指標陣列，並作為全域性變數來使用，這個陣列的內容是需要系統啟動時進行初始化和填充的：

/**
 * Initialize NODE_DATA for a node on the local memory
 */
static void __init setup_node_data(int nid, u64 start_pfn, u64 end_pfn)
{
    const size_t nd_size = roundup(sizeof(pg_data_t), SMP_CACHE_BYTES);
    u64 nd_pa;
    void *nd;
    int tnid;

    if (start_pfn < end_pfn)
        pr_info("Initmem setup node %d [mem %#010Lx-%#010Lx]\n", nid,
            start_pfn << PAGE_SHIFT, (end_pfn << PAGE_SHIFT) - 1);
    else
        pr_info("Initmem setup node %d [<memory-less node>]\n", nid);
        
    nd_pa = memblock_alloc_try_nid(nd_size, SMP_CACHE_BYTES, nid);
    nd = __va(nd_pa);

    /* report and initialize */
    pr_info("NODE_DATA [mem %#010Lx-%#010Lx]\n",
        nd_pa, nd_pa + nd_size - 1);
    tnid = early_pfn_to_nid(nd_pa >> PAGE_SHIFT);
    if (tnid != nid)
        pr_info("NODE_DATA(%d) on node %d\n", nid, tnid);

    node_data[nid] = nd;
    memset(NODE_DATA(nid), 0, sizeof(pg_data_t));
    NODE_DATA(nid)->node_id = nid;
    NODE_DATA(nid)->node_start_pfn = start_pfn;
    NODE_DATA(nid)->node_spanned_pages = end_pfn - start_pfn;
}

setup_node_data是在如下函式中被呼叫的：

static int __init numa_register_nodes(void)
{
    int nid;
    struct memblock_region *mblk;

    /* Check that valid nid is set to memblks */
    for_each_memblock(memory, mblk)
        if (mblk->nid == NUMA_NO_NODE || mblk->nid >= MAX_NUMNODES) {
            pr_warn("Warning: invalid memblk node %d [mem %#010Lx-%#010Lx]\n",
                mblk->nid, mblk->base,
                mblk->base + mblk->size - 1);
            return -EINVAL;
        }

    /* Finally register nodes. */
    for_each_node_mask(nid, numa_nodes_parsed) {
        unsigned long start_pfn, end_pfn;

        get_pfn_range_for_nid(nid, &start_pfn, &end_pfn);
        setup_node_data(nid, start_pfn, end_pfn);
        node_set_online(nid);
    }

    /* Setup online nodes to actual nodes*/
    node_possible_map = numa_nodes_parsed;

    return 0;
}

進一步跟下去會發現它是在void __init arm64_numa_init(void)裡面進行層層呼叫下來的。具體我們不做分析了。

單一節點

對於單一節點的系統來說，系統中只有一個node描述符，定義如下：

#ifndef CONFIG_NEED_MULTIPLE_NODES
struct pglist_data __refdata contig_page_data = {
    .bdata = &bootmem_node_data[0]
};
EXPORT_SYMBOL(contig_page_data);
#endif

深入淺出記憶體管理--記憶體節點(Node)

本文以Linux核心4.9來做介紹。 Node 結構體核心中的節點是使用一個結構體struct pglist_data來進行管理的，它的組成如下所示，本文只會列出幾個關鍵成員，其餘成員待遇到時在做解釋： typedef struct pglist_data {

深入淺出記憶體管理--記憶體管理區(Zone)

本文以Linux核心4.9來做介紹。記憶體管理區(ZONE)結構體每個Node節點中的記憶體又劃分為多個ZONE來進行管理，核心中一共定義有如下幾種型別的ZONE。 enum zone_type { #ifdef CONFIG_ZONE_DMA /* *

深入淺出記憶體管理--記憶體管理概述

記憶體管理我的理解是分為兩個部分，一個是實體記憶體的管理，另一個部分是實體記憶體地址到虛擬地址的轉換。實體記憶體管理核心中實現了很多機制和演算法來進行實體記憶體的管理，比如大名鼎鼎的夥伴系統，以及slab分配器等等。我們知道隨著Linux系統的執行，記憶體是不斷的趨於碎片化的

記憶體管理+記憶體佈局

記憶體管理 8.1 作用域 C語言變數的作用域分為： l 程式碼塊作用域(程式碼塊是{}之間的一段程式碼) l 函式作用域 l 檔案作用域 8.1.1 區域性變數區域性變數也叫auto自動變數(auto可寫可不寫)，一般情況下程式碼塊{}內部定義的變數都是自

建構函式，C++記憶體管理,記憶體洩漏定位

建構函式 1.構造順序　　虛基類建構函式，基類建構函式，類物件建構函式，自己的建構函式　 2.必須使用初始化列表　　（1）引用成員，常量成員；　　（2）基類沒預設建構函式(自己過載覆蓋了)，（3）類物件成員沒預設建構函式(自己過

java記憶體管理-記憶體回收

java的記憶體回收主要分兩個部分： 1、判斷物件是否可以回收。 2、執行回收的過程。判斷物件是否可以回收：主要演算法有兩種 (1) 引用計數演算法給物件中新增一個引用計數器，每當有一個地方引用它時，計數器值就加1；當引用失效時，計數器值就減1；任何時刻計數器

Python是如何進行記憶體管理-記憶體池機制Pymalloc

Python引用了一個記憶體池(memory pool)機制，即Pymalloc機制(malloc:n.分配記憶體)，用於對小塊記憶體的申請和釋放管理記憶體池（memory pool）的概念：　　當建立大量消耗小記憶體的物件時，頻繁呼叫new/malloc會導致大量的記

Linux記憶體描述之記憶體節點node--Linux記憶體管理(二)

1 記憶體節點node 1.1 為什麼要用node來描述記憶體這點前面是說的很明白了, NUMA結構下, 每個處理器CPU與一個本地記憶體直接相連, 而不同處理器之前則通過匯流排進行進一步的連線, 因此相對於任何一個CPU訪問本地記憶體的速度比訪問遠端記憶體的速度要快 Linux適用於各種不同的體系結

QEMU深入淺出: guest實體記憶體管理

原文：http://blog.vmsplice.net/2016/01/qemu-internals-how-guest-physical-ram.html 作者：Stefan Hajnoczi 領域：Open source and virtuali

深入淺出 Java 中 JVM 記憶體管理

Java崗位面試,JVM是對程式設計師基本功考察,通常會問你對JVM瞭解嗎? 可以分幾部分回答這個問題,首先JVM記憶體劃分 | JVM垃圾回收的含義 | 有哪些GC演算法以及年輕代和老年代各自特點等

【軟體開發底層知識修煉】三深入淺出處理器之三記憶體管理與記憶體管理單元（MMU）

上一篇文章學習了中斷的概念與意義，以及中斷的應用-斷點除錯原理。點選連結複習上一篇文章：中斷的概念與意義本片文章繼續學習處理器相關的知識-記憶體管理。包括：記憶體管理單元MMU的作用，虛擬記憶體與實體記憶體之間的對映方式，頁表的概念，快取記憶體（Cache）的作用，實體記憶體與快取

深入淺出記憶體管理--對於watermark的理解

經過前面文章的介紹，每個記憶體管理區都有一個數組watermark，核心中定義了三個watermark來表示當前系統剩餘的空閒記憶體。 WMARK_MIN, WMARK_LOW, WMARK_HIGH, watermark high 當剩餘記憶體在high以上時，系

深入淺出記憶體管理--頁描述符（Page）

核心中採用struct page來描述實體記憶體頁，它的主要成員如下(非全部成員)： unsigned long flags; 標誌位，核心中每個page的狀態可以由此標誌位來表示，列舉幾個標誌位： PG_locked 頁被鎖定，比如在磁碟I/O操作中涉及到的頁，不

深入淺出記憶體管理--實體記憶體框架

NUMA 首先需要介紹一個NUMA的概念，非一致性記憶體訪問模型，在這種系統中，CPU訪問不同記憶體單元的時間可能是不一樣的，實體記憶體被劃分為不同的Node節點來進行管理，對於單CPU的系統也可能使用NUMA，因為這些系統的實體記憶體有可能不一定是整塊的，而是中間包含有很大的洞，因

深入淺出記憶體管理--頁表的建立

頁表的建立 Linux在啟動過程中，要首先進行記憶體的初始化，那麼就一定要首先建立頁表。我們知道每個程序都擁有各自的程序空間，而每個程序空間又分為核心空間和使用者空間。以arm32為例，每個程序有4G的虛擬空間，其中0-3G屬於使用者地址空間，3G-4G屬於核心地址空間，核心地址空

深入淺出記憶體管理-虛擬地址和實體地址轉換

談起記憶體管理，首先我們就要搞清楚虛擬地址和實體地址的關係。本文就是簡單介紹下這兩個基礎概念。實體地址實體地址指實際存在的實體記憶體地址，比我有一個2G的記憶體晶片，那麼系統的實體記憶體就是2G，我要訪問該記憶體中的一個地址，那就需要對應的實體記憶體。虛擬地址虛擬

深入淺出記憶體管理-Linux核心頁表

核心頁表實現新版本的Linux核心程式碼中支援4級對映，那麼一個虛擬地址是包含有如下幾個部分： PGD：Page Global Directory，L0級別頁表 PUD：Page Upper Directory，L1級別頁表 PMD ： Page Middle Direc

深入淺出記憶體管理--高階記憶體對映之pkmap（永久對映）

我們知道系統中的高階記憶體是不能作為直接對映區對映到核心空間的，那麼我們想要使用它怎麼辦呢？前面的文章我們已經有過相關的介紹，可以使用三種方法，分別是pkmap（永久對映）/fixmap（臨時固定對映）/vmlloc，本文主要介紹pkmap，也就是永久對映。入口函式首先我們來

深入淺出記憶體管理-- 夥伴系統（buddy system）

buddy system 夥伴系統是核心中用來管理實體記憶體的一種演算法，我們知道記憶體中有一些是被核心程式碼佔用，還有一些是被特殊用途所保留，那麼剩餘的空閒記憶體都會交給核心記憶體管理系統來進行統一管理和分配，核心中會把記憶體按照頁來組織分配，隨著程序的對記憶體的申請和釋放，系統

深入淺出記憶體管理--快取記憶體（cache memory）和轉換後援緩衝（TLB）

快取記憶體（Cache memory） CPU的執行速度時非常快的，當今的CPU主頻都是GHZ級別的，而對於記憶體DDR來說，每次存取操作都會耗用很多的時鐘週期，這意味著，CPU需要等待很長時間來完成一次讀或者寫操作。為了縮小CPU和DDR兩者之間速度上的不匹配造成的等待問題，硬體

深入淺出記憶體管理--記憶體節點(Node)

Node 結構體

系統中Node的定義

單一節點

相關推薦