4L-線性表之陣列

關注公眾號 MageByte，設定星標點「在看」是我們創造好文的動力。後臺回覆 “加群” 進入技術交流群獲更多技術成長。

陣列對於每一門程式語言來說都是重要的資料結構之一，當然不同語言對陣列的實現及處理也不盡相同。Java 語言中提供的陣列是用來儲存固定大小的同類型元素。

你一定會說陣列這麼簡單，有啥說的。嘿嘿嘿，裡面包含的玄機可不一定每個人都知道。

今天的疑惑來了…..

陣列幾乎都是從 0 開始編號的，有沒有想過為啥陣列從 0 開始編號，而不是從 1 開始呢？使用 1 不是更符合人類的思維麼？

陣列簡介

陣列是一種線性表資料結構，用一組連續的記憶體空間來儲存一組具有相同型別的資料。

裡面出現了幾個重要關鍵字，線性表、連續記憶體空間和相同型別資料，這裡解釋下每個關鍵詞的含義。

線性表

就是資料排成像線一樣的結構，就像我們的高鐵 G1024 號，每節車廂首尾相連，資料最多隻有「前」和「後」兩個方向。除了陣列，連結串列，佇列，棧都是線性結構。

非線性表

比如二叉樹、堆、圖等。之所以叫非線性，是因為，在非線性表中，資料之間並不是簡單的前後關係。

連續的記憶體空間

正式由於它具有連續的記憶體空間和相同的資料型別的資料。就有一個牛逼特性：「隨機訪問」。很多人面試的時候一定被問陣列與連結串列有什麼區別？多數會回答 “連結串列適合插入、刪除，時間複雜度 O(1)；陣列適合查詢，查詢時間複雜度為 O(1)”。

這個回答並不嚴謹。適合查詢，但是查詢的時間複雜度並不是 O(1)，即便是已經排序好的資料，你用二分法查詢時間複雜度也是 O(logn)。正確的應該是，陣列支援隨機訪問，根據下表隨機訪問的時間複雜度為 O(1)。

隨機訪問

我們都知道陣列是根據下表訪問資料的，它是如何實現隨機訪問呢？

用一個長度 4 的 int 型別的陣列 int[] a = new int[4] 舉例，首先計算機給陣列 a 分配了一塊連續記憶體空間 1000~1015。int 型別佔 4 個位元組，所以一共佔有 4*4位元組。記憶體塊的首地址 base_address = 1000。當程式隨機訪問陣列中的第 i 個元素，計算機通過以下定址公式計算出記憶體地址。

targetAddress = base_address + i * data_type_size

targetAddress：訪問目標的記憶體地址。
base_address：陣列記憶體塊的首地址。

i 表示要訪問的下標， data_type_size：資料型別的位元組大小，比如 int 型別佔 4 個位元組。

首地址就像高鐵 G1024 編號，每節車廂就是陣列的的下標位置，每節車廂的座位就像一個個位元組長度。

敲黑板了：同學們，陣列定址公式就是這兒回事。這個公式也是最後解釋為何下標從 0 開始的鋪墊。

為何下標從 0 開始？

“下標”最確切的定義應該是“偏移（offset）”。前面也講到，如果用 base_address 來表示陣列的首地址，a[0] 就是偏移為 0 的位置，也就是首地址，a[i] 就表示偏移 i 個 data_type_size 的位置，所以計算 a[i] 的記憶體地址只需要用這個公式：

targetAddress[i] = base_address + i * data_type_size

現在問題來了，假如陣列下標從 1 開始，計算 a[i] 的記憶體地址公式就需要改成：

targetAddress[i] = base_address + （i - 1） * data_type_size

重點來了，對比兩個公式，從 1 開始每次隨機訪問陣列元素都多了一次減法運算，相當於多執行了一次減法指令。

陣列作為非常基礎的資料結構，通過下標隨機訪問陣列元素又是其非常基礎的程式設計操作，效率的優化就要儘可能做到極致。所以為了減少一次減法操作，陣列選擇了從 0 開始編號，而不是從 1 開始。

當然這不能說是絕對，也可能是歷史原因，C 語言設計是從 0 開始，後面的高階語言都效仿，也方便程式猿很快的適應，減少學習成本。

低效的插入和刪除

有利有弊，這個限制也導致陣列的刪除、插入這種操作變得低效，為了保證記憶體連續性，就需要做資料移動工作。

那有沒有什麼改進方式呢？

插入操作

陣列長度為 n，將一個元素插入到陣列的第 k 個位置。為了滿足連續性我們需要把 k 這個位置騰出來，給新插入的資料佔坑，然後把 k 到 n 這部分的資料都往後移動一位。這個插入的時間複雜度是多少呢？我們來分析下，順便學習下時間與空間複雜度分析。

當在陣列的末尾插入元素，那就不需要移動資料，所以「最好時間複雜度」為 O(1)。當插入的位置在陣列的開頭，那所有的資料都需要依次往後移動一位，所有最壞時間複雜度 O(n)。而我們在每個位置插入元素概率是一樣的，所以平均時間複雜度就是 $$\frac {(1+2+3+…+n)} {n} = O(n)$$。

優化思路-鳩佔鵲巢

如果陣列中的順序是有序，我們就需要移動 k 之後的資料，假如陣列中存放的資料無序，只是作為一個存放資料的集合，要將某個元素插入到陣列 k 位置，我們可以把原來在 k 位置的元素放到陣列的最後，把新插入的元素放入 k 這個位置，時間複雜度就降低到了 O(1)。

刪除操作

同理，假設我們要刪除第 k 個位置的資料，如果 k = n-1，那麼最好時間複雜度就是 O(1)。若果 k = 0，最壞時間複雜度 O(n)。平均時間複雜度也是 O(n)。

優化思路-標記-批量執行

實際上，在某些場合並不需要非要追求資料的連續性。可以將多次的刪除操作批量執行。

比如陣列 number[6]中儲存了 6 個 int 型別的元素：1、2、3、4、5、6。依次刪除 1、2、3。三個元素。防止每次刪除都需要移動資料，我們只要標記資料已經被刪除，當達到刪除閾值，比如是 3，才執行移動資料的操作，這個時候才執行移動操作，大大減少了資料搬移。

你會發現，這不就是 JVM 標記清除垃圾回收演算法的核心思想嗎？沒錯，資料結構和演算法的魅力就在於此，很多時候我們並不是要去死記硬背某個資料結構或者演算法，而是要學習它背後的思想和處理技巧，這些東西才是最有價值的。如果你細心留意，不管是在軟體開發還是架構設計中，總能找到某些演算法和資料結構的影子。

知識拓展&總結

陣列用一塊連續的記憶體空間，來儲存相同型別的一組資料，最大的特點就是支援隨機訪問，但插入、刪除操作也因此變得比較低效，平均情況時間複雜度為 O(n)。在平時的業務開發中，我們可以直接使用程式語言提供的容器類，但是，如果是特別底層的開發，直接使用陣列可能會更合適。

問題來了

基於陣列刪除操作我們提出一個優化思路：標記-批量清除思想，在 Java 的 JVM 中，垃圾回收的標記清除演算法是什麼麼？歡迎加群分享你的想法或者後臺回覆「標記清除」獲取答案。

歡迎加群與我們討論分享，我們第一時間反饋。

陣列簡介

線性表

非線性表

連續的記憶體空間

隨機訪問

為何下標從 0 開始？

低效的插入和刪除

插入操作

刪除操作

知識拓展&總結

4L-線性表之陣列

JavaScript 資料結構與演算法之美 - 線性表（陣列、棧、佇列、連結串列）

【Java】大話數據結構(2) 線性表之單鏈表

算法習題---線性表之單鏈表逆序打印

算法習題---線性表之控制變量個數獲取數據最小值

算法習題---線性表之單鏈表的查找

算法習題---線性表之數組實現循環移動

算法習題---線性表之數組主元素查找

數據結構與算法（四）-線性表之循環鏈表

線性表之順序儲存

線性表之鏈式儲存

資料結構線性表之鏈式儲存結構單鏈表(C++)

資料結構與演算法——線性表之順序表（JAVA語言實現）

【Java】大話資料結構(1) 線性表之順序儲存結構

資料結構:線性表之順序表

c語言——線性表之順序結構

線性表之順序表與單鏈表的區別及優缺點

資料結構與演算法（二）-線性表之單鏈表順序儲存和鏈式儲存

資料結構與演算法（三）-線性表之靜態連結串列

初識線性表之------------靜態順序表

4L-線性表之陣列

陣列簡介

線性表

非線性表

連續的記憶體空間

隨機訪問

為何下標從 0 開始？

低效的插入和刪除

插入操作

刪除操作

知識拓展&總結

相關推薦