數據結構的相關概念
1,數據結構相關概念
1.1數據:是描述客觀事物的符號,是計算機中可以操作的對象,是能被計算機識別,並輸入給計算機處理的符號集合。
1.2結構:簡單的理解就是關系。
1.3數據結構:是相互之間存在一種或多種特定關系的數據元素的集合。
1.4按照視點的不同,我們把數據結構分為邏輯結構和物理結構。
1)邏輯結構:是指數據對象中數據元素之間的相互關系。
(1)集合結構:集合結構中的數據元素除了同屬於一個集合外,它們之間沒有其他關系;
(2)線性結構:線性結構中的數據元素之間是一對一的關系;
(3)樹形結構:樹形結構中的數據元素之間存在一種一對多的層次關系;
(4)圖形結構:圖形結構的數據元素是多對多的關系。
2)物理結構:是指數據的邏輯結構在計算機中的存儲形式。
(1)順序存儲結構:是把數據元素存放在地址連續的存儲單元裏,其數據間的邏輯關系和物理關系是一致的;
(2)鏈式存儲結構:是把數據元素存放在任意的存儲單元裏,這組存儲單元可以是連續的,也可以是不連續的。
2,算法相關概念
2.1算法是解決特定問題求解步驟的描述,在計算機中表現為指令的有限序列,並且每條指令表示一個或多個操作。
2.2算法具有五個基本特性 :
(1) 輸入:零個或多個輸入;
(2) 輸出 :至少有一個或多個輸出 ;
(3) 有窮性:指算法在執行有限的步驟之後,自動結束而不會出現無限循環,並且每一個步驟在可接受的時間內完成;
(4) 確定性:確定性:算法的每一步驟都具有確定的含義,不會出現二義性 ;
(5) 可行性:算法的每一步都必須是可行的,也就是說,每一步都能夠通過執行有限次數完成。
2.3算法效率的度量
1)時間復雜度
在進行算法分析時,語句總的執行次數 T ( n )是關於問題規模n的函數,進而分析 T ( n )隨 n 的變化情況並確定T ( n )的數量級。算法的時間復雜度.也就是算法的時間量度,記作: T ( n )=O(f(n))。它表示隨問題規模n的增大,算法執行時間的增長率和f(n)的增長率相同,稱作算法的漸近時間復雜度,簡稱為時間復雜度。其中 f (n) 是問題規模n的某個函數。
2)空間復雜度
算法的空間復雜度通過計算算法所需的存儲空間實現,算法空間復雜度的計算公式記作: S(n)= O(f(n)),其中,n為問題的規模,f(n)為語句關於n所占存儲空間的函數。
3、線性表
3.1線性表 ( List ):零個或多個數據元素的有限序列。
首先它是一個序列。也就是說,元素之間是有順序的,若元素存在多個,則第一個元素無前驅,最後一個元素無後繼,其他每個元素都有且只有一個前驅和後繼。
3.2存儲結構:
1)順序存儲結構,即用一維數組來實現存儲。
優點:a、無須為表示表中元素之間的邏輯關系而增加額外的存儲空間;
b、可以快速地存取表中任一位置的元素。
缺點:a、插入和刪除操作需要移動大量元素;
b、當線性表長度變化較大時,難以確定存儲空間的容量;
c、造成存儲空間的"碎片".
2)鏈式存儲結構,即用鏈表的形式存儲。
優缺點正好和上面順序存儲結構相反。
3、棧與隊列
3.1 棧( stack )是限定僅在表尾進行插入和刪除操作的線性表。
允許插入和刪除的一端稱為棧頂(top),另一端稱為棧底 (bottom),棧又稱為後進先出 (Last In Filrst Out) 的線性表,簡稱 LIFO 結構。
棧的順序存儲結構實現
棧的鏈式存儲結構實現
3.2 隊列 ( queue ) 是只允許在一端進行插入操作,而在另一端進行刪除操作的線性表。
隊列是一種先進先出 (First In First Out) 的線性表,簡稱FIFO。允許插入的一端稱為隊尾,允許刪除的一端稱為隊頭。
隊列的順序存儲結構實現
隊列鏈式存儲結構實現
4,字符串
4.1 串( string )是由零個或多個字符組成的有限序列,又名叫字符串。本質上,它是一種線性表的擴展。
串的存儲結構與線性表相同,分為兩種順序存儲和鏈式存儲,java中的String,StringBuf就是基於數組實現的。
4.2 子串的定位操作通常稱做串的模式匹配,應該算是串中最重要的操作之一。
KMP 模式匹配算法:https://blog.csdn.net/starstar1992/article/details/54913261/
5,樹
樹( Tree )是 n(n>=0) 個結點的有限集。n=0時稱為空樹。在任意一棵非空樹中: ( 1 )有且僅有一個特定的稱為根 ( Root )的結點; (2) 當 n>1 時,其余結點可分為m (m>0) 個互不相交的有限集T1、T2、……、Tm,其中每一個集合本身又是一棵樹,並且稱為根的子樹(SubTree).
度(Degree) :結點擁有子樹的個數稱為結點的度,樹的度是樹內各結點的度的最大值。
葉結點:度為 0 的結點稱為葉結點(Leaf)或終端結點。
分支結點:度不為 0 的結點稱為非終端結點或分支結點。
結點的層次( LeveI)從根開始定義起,根為第一層,根的孩子為第二層。樹中結點的最大層次稱為樹的深度 (Depth)或高度。
5.1二叉樹
二叉樹( Binary Tree) 是 n(n>=0)個結點的有限集合,該集合或者為空集(稱為空二叉樹),或者由一個根結點和兩棵互不相交的、分別稱為根結點的左子樹和右子樹的二叉樹組成 。
二叉樹具有五種基本形態:
(1)空二叉樹。
(2)只有一個根結點。
(3)根結點只有左子樹 。
(4)根結點只有右子樹。
(5)根結點既有左子樹又有右子樹。
滿二叉樹:在一棵二叉樹中,如果所有分支結點都存在左子樹和右子樹,並且所有葉子都在同一層上,這樣的二叉樹稱為滿二叉樹。
完全二叉樹:對一棵具有n 個結點的二叉樹按層序編號,如果編號為 i (l<:i<n) 的結點與同樣深度的滿二叉樹中編號為 i 的結點在二叉樹中位置完全相同,則這棵二叉樹稱為完全二叉樹。
二叉樹的性質:
性質 1 :在二叉樹的第 i 層上至多有 2^(i-1)個結點(i>=1)。
性質 2: 深度為k的二叉樹至多有2^k - 1個結點(k>=1)。
性質 3: 對任何一棵二叉樹 T,如果其終端結點數為n0,度為2的結點數為n2,則n0=n2+1.
性質 4: 具有n個結點的完全二叉樹的深度為[log2n] + 1([x]表示不大於x的最大整數)。
實現:
二叉樹的遍歷:前序、中序、後序、層序
二叉樹的建立:其實建立二叉樹,就是基於前面的二叉樹的遍歷,只不過在原來應該是打印結點的地方,改成了生成結點、給結點賦值的操作而已。
5.2二叉排序樹
二叉排序樹 ( Binary Sort Tree),又稱為二叉查找樹。它或者是一棵空樹,或者是具有下列性質的二叉樹。
(1)若它的左子樹不空,則左子樹上所有結點的值均小於它的根結構的值;
(2)若它的右子樹不空,則右子樹上所有結點的值均大於它的根結點的值;
(3)它的左、右子樹也分別為二叉排序樹。
5.3平衡二叉樹
平衡二叉樹(Self-Balancing Binary Search Tree)(也稱為AVL樹(俄羅斯數學家的名字簡寫))是一種二叉排序樹,其中每一個節點的左子樹和右子樹的高度差至多等於1。
5.4多路查找樹
多路查找樹 ( muitl-way search tree),其每一個結點的孩子數可以多於兩個,且每一個結點處可以存儲多個元素。由於它是查找樹,所有元素之間存在某種特定的排序關系。
它的4種特殊形式: 2-3樹、2-3-4樹、B樹和B+樹。(都是排序的、平衡的)
5.4.1 2-3樹
2-3樹是一棵多路查找樹,它的每一個結點都具有兩個孩子 (我們稱它為2結點)或三個孩子(我們稱它為3結點) 。
5.4.2 2-3-4樹
2-3-4樹其實就是2-3樹的概念擴展,包括了4 結點的使用。一個4結點包含小中大三個元素和四個孩子(或沒有孩子)。
5.4.3 B樹
B樹(B-tree是一種平衡的多路查找樹,2-3樹和2-3-4樹都是B樹的特例。結點最大的孩子數目稱為B樹的階(order),因此,2-3樹是3階B樹,2-3-4樹是4階B樹。
5.4.4 B+樹
B樹的問題
對於樹結構來說,我們都可以通過中序遍歷來順序查找樹中的元素,這一切都是在內存中進行。可是在 B 樹結構中,我們往返於每個結點之間也就意味著,我們必須得在硬盤的頁面之間進行多次訪問。假設每個結點都屬於硬盤的不同頁面,我們為了中序遍歷所有的元素,頁面2→頁面1→頁面3→頁面1→頁面4→頁面1→頁面5。我們可以看到每次都得返回到頁面1,不能直接頁面2→頁面3→頁面4→頁面5嗎,這就是下面的B+樹。
B+樹是應文件系統所需而出的一種B樹的變形樹,嚴格意義上講它其實已經不是樹了。
B樹中,每一個元素在該樹中只出現一次,有可能在葉子結點上,也有可能在分支結點上。B+樹中,出現在分支結點中的元素會被當作它們在該分支結點位置的中序後繼者(葉子結點)中再次列出。
這樣的數據結構最大的好處就在於:
如果是要隨機查找,我們就從根結點出發,與B樹的查找方式相同,只不過即使在分支結點找到了待查找的關鍵字,它也只是用來索引的,不能提供實際記錄的訪問,還是需要到達包含此關鍵字的終端結點。
如果我們是需要從最小關鍵字進行從小到大的順序查找,我們就可以從最左側的葉子結點出發,不經過分支結點,而是延著指向下一葉子的指針就可遍歷所有的關鍵字。
B+樹的結構特別適合帶有範圍的查找。比如查找我們學校18 - 22歲的學生人數,我們可以通過從根結點出發找到第一個18歲的學生,然後再在葉子結點按順序查找到符合範圍的所有記錄。
說明:樹中常用的兩個性質:排序和平衡
排序:一般指樹上的結點以某種特性從左往右排序。(排序樹也成為查找樹)
平衡:樹上的每一個結點的左子樹和右子樹的高度差至多等於1。
6,圖
圖(Graph)是由頂點的有窮非空集合和頂點之間邊的集合組成,通常表示為: G(V,E),其中,G 表示一個圖,V是圖G中頂點的集合,E是圖G中邊的集合。
最小生成樹
一個鎮的九個村莊架設通信網絡做設計,用最小的成本完成這次任務(鋪設線路最短)。我們把構造連通網(圖中的每個結點都連通)的最小代價生成樹稱為最小生成樹 (Minimun Cost Spanning Tree)。
數據結構的相關概念