資料結構與演算法——複雜度分析
阿新 • • 發佈:2020-12-19
> 原文連結:[https://jiang-hao.com/articles/2020/algorithms-data-structure-n-algorithm-1.html](https://jiang-hao.com/articles/2020/algorithms-data-structure-n-algorithm-1.html)
[toc]
## 概述
從廣義上講,資料結構就是指一組資料的儲存結構。演算法就是操作資料的一組方法。
資料結構和演算法是相輔相成的。資料結構是為演算法服務的,演算法要作用在特定的資料結構之上。比如,因為陣列具有隨機訪問的特點,常用的二分查詢演算法需要用陣列來儲存資料。但如果我們選擇連結串列這種資料結構,二分查詢演算法就無法工作了,因為連結串列並不支援隨機訪問。
想要學習資料結構與演算法,首先要掌握一個數據結構與演算法中最重要的概念——複雜度分析。它幾乎佔了資料結構和演算法這門課的半壁江山,是資料結構和演算法學習的精髓。
資料結構和演算法解決的是如何更省、更快地儲存和處理資料的問題,因此,我們就需要一個考量效率和資源消耗的方法,這就是複雜度分析方法。
下圖幾乎涵蓋了所有資料結構和演算法書籍中都會講到的知識點:
但是,作為初學者,或者一個非演算法工程師來說,並不需要掌握圖裡面的所有知識點。下面總結了 20 個最常用的、最基礎資料結構與演算法,不管是應付面試還是工作需要,其實只要集中精力逐一攻克這 20 個知識點就足夠了:
- 10 個數據結構:**陣列、連結串列、棧、佇列、散列表、二叉樹、堆、跳錶、圖、Trie 樹**;
- 10 個演算法:**遞迴、排序、二分查詢、搜尋、雜湊演算法、貪心演算法、分治演算法、回溯演算法、動態規劃、字串匹配演算法**;
在學習資料結構和演算法的過程中,也要注意,不要只是死記硬背,不要為了學習而學習,而是要學習它的“來歷”“自身的特點”“適合解決的問題”以及“實際的應用場景”。
## 時間複雜度分析
資料結構和演算法本身解決的是“快”和“省”的問題,即如何讓程式碼執行得更快,如何讓程式碼更省儲存空間。所以,執行效率是演算法一個非常重要的考量指標。那如何來衡量你編寫的演算法程式碼的執行效率呢?這裡就要用到我們今天要講的內容:時間、空間複雜度分析。
### 大 O 複雜度表示法
關鍵結論:
**假設每行程式碼執行的時間都一樣,為 $unitTime$,則所有程式碼的執行時間 T(n) 與每行程式碼的執行次數成正比。**
我們可以把這個規律總結成一個公式:
其中,T(n) 我們已經講過了,它表示程式碼執行的時間;n 表示資料規模的大小;f(n) 表示每行程式碼執行的次數總和。因為這是一個公式,所以用 f(n) 來表示。公式中的 O,表示程式碼的執行時間 T(n) 與 f(n) 表示式成正比。
按照這個分析思路,我們再來看這段程式碼。
```c
int cal(int n) {
int sum = 0;
int i = 1;
int j = 1;
for (; i <= n; ++i) {
j = 1;
for (; j <= n; ++j) {
sum = sum + i * j;
}
}
}
```
第 2、3、4 行程式碼,每行都需要 1 個 $unit Time$ 的執行時間,第 5、6 行程式碼迴圈執行了 $n$ 遍,需要$ 2n * unitTime$ 的執行時間,第 7、8 行程式碼迴圈執行了 $n^2$遍,所以需要 $2n^2* unitTime$ 的執行時間。所以,整段程式碼總的執行時間 $T(n) = O(2n^2+2n+3)$。
大 O 時間複雜度實際上並不具體表示程式碼真正的執行時間,而是**表示程式碼執行時間隨資料規模增長的變化趨勢**,所以,也叫作漸進時間複雜度(asymptotic time complexity),簡稱時間複雜度。
當 n 很大時,你可以把它想象成 10000、100000。而公式中的**低階、常量、係數三部分並不左右增長趨勢,所以都可以忽略。我們只需要記錄一個最大量級就可以**了,如果用大 O 表示法表示剛講的那段程式碼的時間複雜度,就可以記為:$T(n) = O(n^2)$。
### 時間複雜度分析
如何分析一段程式碼的時間複雜度?我們有三個比較實用的方法。
**只關注迴圈執行次數最多的一段程式碼**
大 O 這種複雜度表示方法只是表示一種變化趨勢。我們通常會忽略掉公式中的常量、低階、係數,只需要記錄一個最大階的量級就可以了。所以,我們在分析一個演算法、一段程式碼的時間複雜度的時候,也只關注迴圈執行次數最多的那一段程式碼就可以了。這段核心程式碼執行次數的 n 的量級,就是整段要分析程式碼的時間複雜度。
這裡我要再強調一下,即便某段程式碼迴圈 10000 次、100000 次,只要是一個已知的數,跟 n 無關,照樣也是常量級的執行時間。當 n 無限大的時候,就可以忽略。儘管對程式碼的執行時間會有很大影響,但是回到時間複雜度的概念來說,它表示的是一個演算法執行效率與資料規模增長的變化趨勢,所以不管常量的執行時間多大,我們都可以忽略掉。因為它本身對增長趨勢並沒有影響。
**多段同級程式碼的總複雜度等於量級最大的那段程式碼的複雜度**
抽象成公式就是:
$$
如果 T_1(n)=O(f(n)),T_2(n)=O(g(n));那麼 T(n)=max(O(f(n)), O(g(n))) =O(max(f(n), g(n))).
$$
**多個巢狀迴圈程式碼的複雜度等於巢狀內外程式碼複雜度的乘積**
抽象成公式就是:
$$
如果 T_1(n)=O(f(n)),T_2(n)=O(g(n));那麼 T(n)=T_1(n)*T_2(n)=O(f(n))*O(g(n))=O(f(n)*g(n)).
$$
舉個例子:
```c
int cal(int n) {
int ret = 0;
int i = 1;
for (; i < n; ++i) {
ret = ret + f(i);
}
}
int f(int n) {
int sum = 0;
int i = 1;
for (; i < n; ++i) {
sum = sum + i;
}
return sum;
}
```
我們單獨看 $cal()$ 函式。假設 $f()$ 只是一個普通$O(1)$的操作,那第 4~6 行的時間複雜度就是,$T_1(n) = O(n)$。但 $f()$ 函式本身不是一個簡單的操作,它的時間複雜度是 $T_2(n) = O(n)$,所以,整個 $cal()$ 函式的時間複雜度就是,$T(n) = T_1(n) * T_2(n) = O(n*n) = O(n^2)$。
### 幾種常見時間複雜度例項分析
雖然程式碼千差萬別,但是常見的複雜度量級並不多。我稍微總結了一下,這些複雜度量級幾乎涵蓋了你今後可以接觸的所有程式碼的複雜度量級。
對於以上羅列的複雜度量級,我們可以粗略地分為兩類,多項式量級和非多項式量級。其中,非多項式量級只有兩個:$O(2^n)$ 和 $O(n!)$。
我們把時間複雜度為非多項式量級的演算法問題叫作 NP(Non-Deterministic Polynomial,非確定多項式)問題。
當資料規模 n 越來越大時,非多項式量級演算法的執行時間會急劇增加,求解問題的執行時間會無限增長。所以,非多項式時間複雜度的演算法其實是非常低效的演算法。因此,關於 NP 時間複雜度我們就不展開講了。我們主要來看幾種常見的多項式時間複雜度。
**O(1)**
首先必須明確一個概念,O(1) 只是常量級時間複雜度的一種表示方法,並不是指只執行了一行程式碼。比如這段程式碼,即便有 3 行,它的時間複雜度也是 O(1),而不是 O(3)。
```c
int i = 8;
int j = 6;
int sum = i + j;
```
總結一下,只要程式碼的執行時間不隨 n 的增大而增長,這樣程式碼的時間複雜度我們都記作 O(1)。或者說,一般情況下,只要演算法中不存在迴圈語句、遞迴語句,即使有成千上萬行的程式碼,其時間複雜度也是Ο(1)。
**O(logn)、O(nlogn)**
對數階時間複雜度非常常見,同時也是最難分析的一種時間複雜度。我們通過一個例子來說明一下。
```c
i=1;
while (i <= n) {
i = i * 2;
}
```
根據我們前面講的複雜度分析方法,第三行程式碼是迴圈執行次數最多的。所以,我們只要能計算出這行程式碼被執行了多少次,就能知道整段程式碼的時間複雜度。
從程式碼中可以看出,變數 i 的值從 1 開始取,每迴圈一次就乘以 2。當大於 n 時,迴圈結束。還記得我們高中學過的等比數列嗎?實際上,變數 i 的取值就是一個等比數列。如果我把它一個一個列出來,就應該是這個樣子的:
所以,我們只要知道 x 值是多少,就知道這行程式碼執行的次數了。通過 $2^x=n$ 求解 x 這個問題我們想高中應該就學過了,我就不多說了。$x=log_2n$,所以,這段程式碼的時間複雜度就是 $O(log_2n)$。
現在,我把程式碼稍微改下,你再看看,這段程式碼的時間複雜度是多少?
```c
i=1;
while (i <= n) {
i = i * 3;
}
```
根據我剛剛講的思路,很簡單就能看出來,這段程式碼的時間複雜度為 $O(log_3n)$。
實際上,不管是以 2 為底、以 3 為底,還是以 10 為底,我們可以把所有對數階的時間複雜度都記為 $O(logn)$。為什麼呢?
我們知道,對數之間是可以互相轉換的,$log_3n$ 就等於 $log_32 * log_2n$,所以 $O(log_3n) = O(C * log_2n)$,其中 $C=log_32$ 是一個常量。基於我們前面的一個理論:在採用大 O 標記複雜度的時候,可以忽略係數,即 $O(Cf(n)) = O(f(n))$。所以,$O(log_2n)$ 就等於 $O(log_3n)$。因此,在對數階時間複雜度的表示方法裡,我們忽略對數的“底”,統一表示為 $O(logn)$。
如果你理解了我前面講的 $O(logn)$,那 $O(nlogn)$ 就很容易理解了。還記得我們剛講的乘法法則嗎?如果一段程式碼的時間複雜度是 $O(logn)$,我們迴圈執行 n 遍,時間複雜度就是 $O(nlogn)$ 了。而且,$O(nlogn)$ 也是一種非常常見的演算法時間複雜度。比如,歸併排序、快速排序的時間複雜度都是 $O(nlogn)$。
**O(m+n)、O(m*n)**
再來講一種跟前面都不一樣的時間複雜度,程式碼的複雜度由兩個資料的規模來決定。
```c
int cal(int m, int n) {
int sum_1 = 0;
int i = 1;
for (; i < m; ++i) {
sum_1 = sum_1 + i;
}
int sum_2 = 0;
int j = 1;
for (; j < n; ++j) {
sum_2 = sum_2 + j;
}
return sum_1 + sum_2;
}
```
從程式碼中可以看出,m 和 n 是表示兩個資料規模。我們無法事先評估 m 和 n 誰的量級大,所以我們在表示複雜度的時候,就不能簡單地利用加法法則,省略掉其中一個。所以,上面程式碼的時間複雜度就是 O(m+n)。
針對這種情況,原來的法則就不正確了,我們需要將規則改為:$T_1(m) + T_2(n) = O(f(m) + g(n))$。但是對於巢狀迴圈來說的乘法法則繼續有效:$T_1(m)*T_2(n) = O(f(m) * f(n))$。
### 最好、最壞情況時間複雜度
分析一下這段程式碼的時間複雜度。
```c
// n表示陣列array的長度
int find(int[] array, int n, int x) {
int i = 0;
int pos = -1;
for (; i < n; ++i) {
if (array[i] == x) pos = i;
}
return pos;
}
```
你應該可以看出來,這段程式碼要實現的功能是,在一個無序的陣列(array)中,查詢變數 x 出現的位置。如果沒有找到,就返回 -1。按照上節課講的分析方法,這段程式碼的複雜度是 O(n),其中,n 代表陣列的長度。
我們在陣列中查詢一個數據,並不需要每次都把整個陣列都遍歷一遍,因為有可能中途找到就可以提前結束迴圈了。但是,這段程式碼寫得不夠高效。我們可以這樣優化一下這段查詢程式碼。
```c
// n表示陣列array的長度
int find(int[] array, int n, int x) {
int i = 0;
int pos = -1;
for (; i < n; ++i) {
if (array[i] == x) {
pos = i;
break;
}
}
return pos;
}
```
這個時候,問題就來了。我們優化完之後,這段程式碼的時間複雜度還是 O(n) 嗎?很顯然,咱們上一節講的分析方法,解決不了這個問題。
因為,要查詢的變數 x 可能出現在陣列的任意位置。如果陣列中第一個元素正好是要查詢的變數 x,那就不需要繼續遍歷剩下的 n-1 個數據了,那時間複雜度就是 O(1)。但如果陣列中不存在變數 x,那我們就需要把整個陣列都遍歷一遍,時間複雜度就成了 O(n)。所以,不同的情況下,這段程式碼的時間複雜度是不一樣的。
為了表示程式碼在不同情況下的不同時間複雜度,我們需要引入三個概念:最好情況時間複雜度、最壞情況時間複雜度和平均情況時間複雜度。
顧名思義,最好情況時間複雜度就是,在最理想的情況下,執行這段程式碼的時間複雜度。就像我們剛剛講到的,在最理想的情況下,要查詢的變數 x 正好是陣列的第一個元素,這個時候對應的時間複雜度就是最好情況時間複雜度。
同理,最壞情況時間複雜度就是,在最糟糕的情況下,執行這段程式碼的時間複雜度。就像剛舉的那個例子,如果陣列中沒有要查詢的變數 x,我們需要把整個陣列都遍歷一遍才行,所以這種最糟糕情況下對應的時間複雜度就是最壞情況時間複雜度。
### 平均情況時間複雜度
我們都知道,最好情況時間複雜度和最壞情況時間複雜度對應的都是極端情況下的程式碼複雜度,發生的概率其實並不大。為了更好地表示平均情況下的複雜度,我們需要引入另一個概念:平均情況時間複雜度,後面我簡稱為平均時間複雜度。平均時間複雜度又該怎麼分析呢?我還是藉助剛才查詢變數 x 的例子來解釋。
要查詢的變數 x 在陣列中的位置,有 n+1 種情況:在陣列的 0~n-1 位置中和不在陣列中。我們把每種情況下,查詢需要遍歷的元素個數累加起來,然後再除以 n+1,就可以得到需要遍歷的元素個數的平均值,即:
我們知道,時間複雜度的大 O 標記法中,可以省略掉係數、低階、常量,所以,咱們把剛剛這個公式簡化之後,得到的平均時間複雜度就是 O(n)。這個結論雖然是正確的,但是計算過程稍微有點兒問題。究竟是什麼問題呢?我們剛講的這 n+1 種情況,出現的概率並不是一樣的。
我們知道,要查詢的變數 x,要麼在數組裡,要麼就不在數組裡。這兩種情況對應的概率統計起來很麻煩,為了方便你理解,我們假設在陣列中與不在陣列中的概率都為 1/2。另外,要查詢的資料出現在 0~n-1 這 n 個位置的概率也是一樣的,為 1/n。所以,根據概率乘法法則,要查詢的資料出現在 0~n-1 中任意位置的概率就是 1/(2n)。
因此,前面的推導過程中存在的最大問題就是,沒有將各種情況發生的概率考慮進去。如果我們把每種情況發生的概率也考慮進去,那平均時間複雜度的計算過程就變成了這樣:
這個值就是概率論中的加權平均值,也叫作期望值,所以平均時間複雜度的全稱應該叫加權平均時間複雜度或者期望時間複雜度。
引入概率之後,前面那段程式碼的加權平均值為 (3n+1)/4。用大 O 表示法來表示,去掉係數和常量,這段程式碼的加權平均時間複雜度仍然是 O(n)。
實際上,在大多數情況下,我們並不需要區分最好、最壞、平均情況時間複雜度三種情況。像我們上一節課舉的那些例子那樣,很多時候,我們使用一個複雜度就可以滿足需求了。只有同一塊程式碼在不同的情況下,時間複雜度有量級的差距,我們才會使用這三種複雜度表示法來區分。
### 均攤時間複雜度
均攤時間複雜度,聽起來跟平均時間複雜度有點兒像。對於初學者來說,這兩個概念確實非常容易弄混。
平均複雜度只在某些特殊情況下才會用到,而均攤時間複雜度應用的場景比它更加特殊、更加有限。
藉助一個具體的例子:
```c
// array表示一個長度為n的陣列
// 程式碼中的array.length就等於n
int[] array = new int[n];
int count = 0;
void insert(int val) {
if (count == array.length) {
int sum = 0;
for (int i = 0; i < array.length; ++i) {
sum = sum + array[i];
}
array[0] = sum;
count = 1;
}
array[count] = val;
++count;
}
```
這段程式碼實現了一個往陣列中插入資料的功能。當陣列滿了之後,也就是程式碼中的 count == array.length 時,我們用 for 迴圈遍歷陣列求和,並清空陣列,將求和之後的 sum 值放到陣列的第一個位置,然後再將新的資料插入。但如果陣列一開始就有空閒空間,則直接將資料插入陣列。
那這段程式碼的時間複雜度是多少呢?你可以先用我們剛講到的三種時間複雜度的分析方法來分析一下。
最理想的情況下,陣列中有空閒空間,我們只需要將資料插入到陣列下標為 count 的位置就可以了,所以最好情況時間複雜度為 O(1)。最壞的情況下,陣列中沒有空閒空間了,我們需要先做一次陣列的遍歷求和,然後再將資料插入,所以最壞情況時間複雜度為 O(n)。
那平均時間複雜度是多少呢?答案是 O(1)。我們還是可以通過前面講的概率論的方法來分析。
假設陣列的長度是 n,根據資料插入的位置的不同,我們可以分為 n 種情況,每種情況的時間複雜度是 O(1)。除此之外,還有一種“額外”的情況,就是在陣列沒有空閒空間時插入一個數據,這個時候的時間複雜度是 O(n)。而且,這 n+1 種情況發生的概率一樣,都是 1/(n+1)。所以,根據加權平均的計算方法,我們求得的平均時間複雜度就是:
至此為止,前面的最好、最壞、平均時間複雜度的計算,理解起來應該都沒有問題。但是這個例子裡的平均複雜度分析其實並不需要這麼複雜,不需要引入概率論的知識。這是為什麼呢?我們先來對比一下這個 insert() 的例子和前面那個 find() 的例子,你就會發現這兩者有很大差別。
首先,find() 函式在極端情況下,複雜度才為 O(1)。但 insert() 在大部分情況下,時間複雜度都為 O(1)。只有個別情況下,複雜度才比較高,為 O(n)。這是 insert()第一個區別於 find() 的地方。
我們再來看第二個不同的地方。對於 insert() 函式來說,O(1) 時間複雜度的插入和 O(n) 時間複雜度的插入,出現的頻率是非常有規律的,而且有一定的前後時序關係,一般都是一個 O(n) 插入之後,緊跟著 n-1 個 O(1) 的插入操作,迴圈往復。
所以,針對這樣一種特殊場景的複雜度分析,我們並不需要像之前講平均複雜度分析方法那樣,找出所有的輸入情況及相應的發生概率,然後再計算加權平均值。
針對這種特殊的場景,我們引入了一種更加簡單的分析方法:攤還分析法,通過攤還分析得到的時間複雜度我們起了一個名字,叫均攤時間複雜度。
那究竟如何使用攤還分析法來分析演算法的均攤時間複雜度呢?
我們還是繼續看在陣列中插入資料的這個例子。每一次 O(n) 的插入操作,都會跟著 n-1 次 O(1) 的插入操作,所以把耗時多的那次操作均攤到接下來的 n-1 次耗時少的操作上,均攤下來,這一組連續的操作的均攤時間複雜度就是 O(1)。這就是均攤分析的大致思路。你都理解了嗎?
均攤時間複雜度和攤還分析應用場景比較特殊,所以我們並不會經常用到。為了方便你理解、記憶,我這裡簡單總結一下它們的應用場景。如果你遇到了,知道是怎麼回事兒就行了。
對一個數據結構進行一組連續操作中,大部分情況下時間複雜度都很低,只有個別情況下時間複雜度比較高,而且這些操作之間存在前後連貫的時序關係,這個時候,我們就可以將這一組操作放在一塊兒分析,看是否能將較高時間複雜度那次操作的耗時,平攤到其他那些時間複雜度比較低的操作上。而且,在能夠應用均攤時間複雜度分析的場合,一般均攤時間複雜度就等於最好情況時間複雜度。
儘管很多資料結構和演算法書籍都花了很大力氣來區分平均時間複雜度和均攤時間複雜度,但其實我個人認為,均攤時間複雜度就是一種特殊的平均時間複雜度,我們沒必要花太多精力去區分它們。你最應該掌握的是它的分析方法,攤還分析。至於分析出來的結果是叫平均還是叫均攤,這只是個說法,並不重要。
## 空間複雜度分析
前面我講過,時間複雜度的全稱是漸進時間複雜度,表示演算法的執行時間與資料規模之間的增長關係。類比一下,空間複雜度全稱就是漸進空間複雜度(asymptotic space complexity),表示演算法的儲存空間與資料規模之間的增長關係。看下面的例子:
```c
void print(int n) {
int i = 0;
int[] a = new int[n];
for (i; i