常用查詢資料結構及演算法（Python實現）

一、基本概念
二、無序表查詢
三、有序表查詢

3.1 二分查詢(Binary Search)
3.2 插值查詢
3.3 斐波那契查詢

四、線性索引查詢

4.1 稠密索引
4.2 分塊索引
4.3 倒排索引

五、二叉排序樹
六、平衡二叉樹
七、多路查詢樹（B樹）

7.1 2-3樹
7.2 2-3-4樹
7.3 B樹
7.4 B+樹

八、散列表（雜湊表）

8.1 雜湊函式的構造方法
8.2 處理雜湊衝突
8.3 散列表查詢實現
8.4 散列表查詢效能分析

參考書目《大話資料結構》

一、基本概念

查詢（Searching）就是根據給定的某個值，在查詢表中確定一個其關鍵字等於給定值的資料元素（或記錄）。

查詢表（Search Table）：由同一型別的資料元素（或記錄）構成的集合
關鍵字（Key）：資料元素中某個資料項的值，又稱為鍵值。
主鍵（Primary Key）：可唯一地標識某個資料元素或記錄的關鍵字。

查詢表按照操作方式可分為：

靜態查詢表（Static Search Table）：只做查詢操作的查詢表。它的主要操作是：
查詢某個“特定的”資料元素是否在表中
檢索某個“特定的”資料元素和各種屬性
動態查詢表（Dynamic Search Table）：在查詢中同時進行插入或刪除等操作：
查詢時插入資料
查詢時刪除資料

二、無序表查詢

也就是資料不排序的線性查詢，遍歷資料元素。
演算法分析：最好情況是在第一個位置就找到了，此為O(1)；最壞情況在最後一個位置才找到，此為O(n)；所以平均查詢次數為(n+1)/2。最終時間複雜度為O(n)

# 最基礎的遍歷無序列表的查詢演算法
# 時間複雜度O(n)

def sequential_search(lis, key):
    length = len(lis)
    for i in range(length):
        if lis[i] == key:
            return i
        else:
            return False


if __name__ == '__main__':
    LIST = [1, 5, 8, 123, 22, 54, 7, 99, 300, 222]
    result = sequential_search(LIST, 123)
    print(result)

12345678910111213141516

# 最基礎的遍歷無序列表的查詢演算法# 時間複雜度O(n)def sequential_search(lis,key):length=len(lis)foriinrange(length):iflis[i]==key:returnielse:returnFalseif__name__=='__main__':LIST=[1,5,8,123,22,54,7,99,300,222]result=sequential_search(LIST,123)print(result)

三、有序表查詢

查詢表中的資料必須按某個主鍵進行某種排序！

1. 二分查詢(Binary Search)

演算法核心：在查詢表中不斷取中間元素與查詢值進行比較，以二分之一的倍率進行表範圍的縮小。

Python

# 針對有序查詢表的二分查詢演算法
# 時間複雜度O(log(n))

def binary_search(lis, key):
    low = 0
    high = len(lis) - 1
    time = 0
    while low < high:
        time += 1
        mid = int((low + high) / 2)
        if key < lis[mid]:
            high = mid - 1
        elif key > lis[mid]:
            low = mid + 1
        else:
            # 列印折半的次數
            print("times: %s" % time)
            return mid
    print("times: %s" % time)
    return False

if __name__ == '__main__':
    LIST = [1, 5, 7, 8, 22, 54, 99, 123, 200, 222, 444]
    result = binary_search(LIST, 99)
    print(result)

12345678910111213141516171819202122232425

# 針對有序查詢表的二分查詢演算法# 時間複雜度O(log(n))defbinary_search(lis,key):low=0high=len(lis)-1time=0whilelow<high:time+=1mid=int((low+high)/2)ifkey<lis[mid]:high=mid-1elifkey>lis[mid]:low=mid+1else:# 列印折半的次數print("times: %s"%time)returnmidprint("times: %s"%time)returnFalseif__name__=='__main__':LIST=[1,5,7,8,22,54,99,123,200,222,444]result=binary_search(LIST,99)print(result)

2. 插值查詢

二分查詢法雖然已經很不錯了，但還有可以優化的地方。
有的時候，對半過濾還不夠狠，要是每次都排除十分之九的資料豈不是更好？選擇這個值就是關鍵問題，插值的意義就是：以更快的速度進行縮減。

插值的核心就是使用公式：
value = (key – list[low])/(list[high] – list[low])

用這個value來代替二分查詢中的1/2。
上面的程式碼可以直接使用，只需要改一句。

Python

# 插值查詢演算法
# 時間複雜度O(log(n))

def binary_search(lis, key):
    low = 0
    high = len(lis) - 1
    time = 0
    while low < high:
        time += 1
        # 計算mid值是插值演算法的核心程式碼
        mid = low + int((high - low) * (key - lis[low])/(lis[high] - lis[low]))
        print("mid=%s, low=%s, high=%s" % (mid, low, high))
        if key < lis[mid]:
            high = mid - 1
        elif key > lis[mid]:
            low = mid + 1
        else:
            # 列印查詢的次數
            print("times: %s" % time)
            return mid
    print("times: %s" % time)
    return False

if __name__ == '__main__':
    LIST = [1, 5, 7, 8, 22, 54, 99, 123, 200, 222, 444]
    result = binary_search(LIST, 444)
    print(result)

123456789101112131415161718192021222324252627

# 插值查詢演算法# 時間複雜度O(log(n))defbinary_search(lis,key):low=0high=len(lis)-1time=0whilelow<high:time+=1# 計算mid值是插值演算法的核心程式碼mid=low+int((high-low)*(key-lis[low])/(lis[high]-lis[low]))print("mid=%s, low=%s, high=%s"%(mid,low,high))ifkey<lis[mid]:high=mid-1elifkey>lis[mid]:low=mid+1else:# 列印查詢的次數print("times: %s"%time)returnmidprint("times: %s"%time)returnFalseif__name__=='__main__':LIST=[1,5,7,8,22,54,99,123,200,222,444]result=binary_search(LIST,444)print(result)

插值演算法的總體時間複雜度仍然屬於O(log(n))級別的。其優點是，對於表內資料量較大，且關鍵字分佈比較均勻的查詢表，使用插值演算法的平均效能比二分查詢要好得多。反之，對於分佈極端不均勻的資料，則不適合使用插值演算法。

3. 斐波那契查詢

由插值演算法帶來的啟發，發明了斐波那契演算法。其核心也是如何優化那個縮減速率，使得查詢次數儘量降低。
使用這種演算法，前提是已經有一個包含斐波那契資料的列表
F = [1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144,…]

Python

# 斐波那契查詢演算法
# 時間複雜度O(log(n))

def fibonacci_search(lis, key):
    # 需要一個現成的斐波那契列表。其最大元素的值必須超過查詢表中元素個數的數值。
    F = [1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144,
         233, 377, 610, 987, 1597, 2584, 4181, 6765,
         10946, 17711, 28657, 46368]
    low = 0
    high = len(lis) - 1
    
    # 為了使得查詢表滿足斐波那契特性，在表的最後新增幾個同樣的值
    # 這個值是原查詢表的最後那個元素的值
    # 新增的個數由F[k]-1-high決定
    k = 0
    while high > F[k]-1:
        k += 1
    print(k)
    i = high
    while F[k]-1 > i:
        lis.append(lis[high])
        i += 1
    print(lis)
    
    # 演算法主邏輯。time用於展示迴圈的次數。
    time = 0
    while low <= high:
        time += 1
        # 為了防止F列表下標溢位，設定if和else
        if k < 2:
            mid = low
        else:
            mid = low + F[k-1]-1
        
        print("low=%s, mid=%s, high=%s" % (low, mid, high))
        if key < lis[mid]:
            high = mid - 1
            k -= 1
        elif key > lis[mid]:
            low = mid + 1
            k -= 2
        else:
            if mid <= high:
                # 列印查詢的次數
                print("times: %s" % time)
                return mid
            else:
                print("times: %s" % time)
                return high
    print("times: %s" % time)
    return False

if __name__ == '__main__':
    LIST = [1, 5, 7, 8, 22, 54, 99, 123, 200, 222, 444]
    result = fibonacci_search(LIST, 444)
    print(result)

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556

# 斐波那契查詢演算法# 時間複雜度O(log(n))deffibonacci_search(lis,key):# 需要一個現成的斐波那契列表。其最大元素的值必須超過查詢表中元素個數的數值。F=[1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368]low=0high=len(lis)-1# 為了使得查詢表滿足斐波那契特性，在表的最後新增幾個同樣的值# 這個值是原查詢表的最後那個元素的值# 新增的個數由F[k]-1-high決定k=0whilehigh>F[k]-1:k+=1print(k)i=highwhileF[k]-1>i:lis.append(lis[high])i+=1print(lis)# 演算法主邏輯。time用於展示迴圈的次數。time=0whilelow<=high:time+=1# 為了防止F列表下標溢位，設定if和elseifk<2:mid=lowelse:mid=low+F[k-1]-1print("low=%s, mid=%s, high=%s"%(low,mid,high))ifkey<lis[mid]:high=mid-1k-=1elifkey>lis[mid]:low=mid+1k-=2else:ifmid<=high:# 列印查詢的次數print("times: %s"%time)returnmidelse:print("times: %s"%time)returnhighprint("times: %s"%time)returnFalseif__name__=='__main__':LIST=[1,5,7,8,22,54,99,123,200,222,444]result=fibonacci_search(LIST,444)print(result)

演算法分析：斐波那契查詢的整體時間複雜度也為O(log(n))。但就平均效能，要優於二分查詢。但是在最壞情況下，比如這裡如果key為1，則始終處於左側半區查詢，此時其效率要低於二分查詢。

總結：二分查詢的mid運算是加法與除法，插值查詢則是複雜的四則運算，而斐波那契查詢只是最簡單的加減運算。在海量資料的查詢中，這種細微的差別可能會影響最終的查詢效率。因此，三種有序表的查詢方法本質上是分割點的選擇不同，各有優劣，應根據實際情況進行選擇。

四、線性索引查詢

對於海量的無序資料，為了提高查詢速度，一般會為其構造索引表。
索引就是把一個關鍵字與它相對應的記錄進行關聯的過程。
一個索引由若干個索引項構成，每個索引項至少包含關鍵字和其對應的記錄在儲存器中的位置等資訊。
索引按照結構可以分為：線性索引、樹形索引和多級索引。
線性索引：將索引項的集合通過線性結構來組織，也叫索引表。
線性索引可分為：稠密索引、分塊索引和倒排索引

稠密索引

稠密索引指的是線上性索引中，為資料集合中的每個記錄都建立一個索引項。
image_1b2cl8r0dk1v1u0ssf0rmk8o29.png-157.4kB

這其實就相當於給無序的集合，建立了一張有序的線性表。其索引項一定是按照關鍵碼進行有序的排列。
這也相當於把查詢過程中需要的排序工作給提前做了。

分塊索引

給大量的無序資料集合進行分塊處理，使得塊內無序，塊與塊之間有序。
這其實是有序查詢和無序查詢的一種中間狀態或者說妥協狀態。因為資料量過大，建立完整的稠密索引耗時耗力，佔用資源過多；但如果不做任何排序或者索引，那麼遍歷的查詢也無法接受，只能折中，做一定程度的排序或索引。
image_1b2clkecf3mt1j7a8hn3v5vbrm.png-136.6kB

分塊索引的效率比遍歷查詢的O(n)要高一些，但與二分查詢的O(logn)還是要差不少。

倒排索引

不是由記錄來確定屬性值，而是由屬性值來確定記錄的位置，這種被稱為倒排索引。其中記錄號表儲存具有相同次關鍵字的所有記錄的地址或引用（可以是指向記錄的指標或該記錄的主關鍵字）。

倒排索引是最基礎的搜尋引擎索引技術。

五、二叉排序樹

二叉排序樹又稱為二叉查詢樹。它或者是一顆空樹，或者是具有下列性質的二叉樹：

若它的左子樹不為空，則左子樹上所有節點的值均小於它的根結構的值；
若它的右子樹不為空，則右子樹上所有節點的值均大於它的根結構的值；
它的左、右子樹也分別為二叉排序樹。

構造一顆二叉排序樹的目的，往往不是為了排序，而是為了提高查詢和插入刪除關鍵字的速度。

二叉排序樹的操作：

查詢：對比節點的值和關鍵字，相等則表明找到了；小了則往節點的左子樹去找，大了則往右子樹去找，這麼遞迴下去，最後返回布林值或找到的節點。
插入：從根節點開始逐個與關鍵字進行對比，小了去左邊，大了去右邊，碰到子樹為空的情況就將新的節點連結。

刪除：如果要刪除的節點是葉子，直接刪；如果只有左子樹或只有右子樹，則刪除節點後，將子樹連結到父節點即可；如果同時有左右子樹，則可以將二叉排序樹進行中序遍歷，取將要被刪除的節點的前驅或者後繼節點替代這個被刪除的節點的位置。
Python

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author: Liu Jiang
# Python 3.5


class BSTNode:
    """
    定義一個二叉樹節點類。
    以討論演算法為主，忽略了一些諸如對資料型別進行判斷的問題。
    """
    def __init__(self, data, left=None, right=None):
        """
        初始化
        :param data: 節點儲存的資料
        :param left: 節點左子樹
        :param right: 節點右子樹
        """
        self.data = data
        self.left = left
        self.right = right


class BinarySortTree:
    """
    基於BSTNode類的二叉排序樹。維護一個根節點的指標。
    """
    def __init__(self):
        self._root = None

    def is_empty(self):
        return self._root is None

    def search(self, key):
        """
        關鍵碼檢索
        :param key: 關鍵碼
        :return: 查詢節點或None
        """
        bt = self._root
        while bt:
            entry = bt.data
            if key < entry:
                bt = bt.left
            elif key > entry:
                bt = bt.right
            else:
                return entry
        return None

    def insert(self, key):
        """
        插入操作
        :param key:關鍵碼 
        :return: 布林值
        """
        bt = self._root
        if not bt:
            self._root = BSTNode(key)
            return
        while True:
            entry = bt.data
            if key < entry:
                if bt.left is None:
                    bt.left = BSTNode(key)
                    return
                bt = bt.left
            elif key > entry:
                if bt.right is None:
                    bt.right = BSTNode(key)
                    return
                bt = bt.right
            else:
                bt.data = key
                return

    def delete(self, key):
        """
        二叉排序樹最複雜的方法
        :param key: 關鍵碼
        :return: 布林值
        """
        p, q = None, self._root     # 維持p為q的父節點，用於後面的連結操作
        if not q:
            print("空樹！")
            return
        while q and q.data != key:
            p = q
            if key < q.data:
                q = q.left
            else:
                q = q.right
            if not q:               # 當樹中沒有關鍵碼key時，結束退出。
                return
        # 上面已將找到了要刪除的節點，用q引用。而p則是q的父節點或者None（q為根節點時）。
        if not q.left:
            if p is None:
                self._root = q.right
            elif q is p.left:
                p.left = q.right
            else:
                p.right = q.right
            return
        # 查詢節點q的左子樹的最右節點，將q的右子樹連結為該節點的右子樹
        # 該方法可能會增大樹的深度，效率並不算高。可以設計其它的方法。
        r = q.left
        while r.right:
            r = r.right
        r.right = q.right
        if p is None:
            self._root = q.left
        elif p.left is q:
            p.left = q.left
        else:
            p.right = q.left

    def __iter__(self):
        """
        實現二叉樹的中序遍歷演算法,
        展示我們建立的二叉排序樹.
        直接使用python內建的列表作為一個棧。
        :return: data
        """
        stack = []
        node = self._root
        while node or stack:
            while node:
                stack.append(node)
                node = node.left
            node = stack.pop()
            yield node.data
            node = node.right


if __name__ == '__main__':
    lis = [62, 58, 88, 48, 73, 99, 35, 51, 93, 29, 37, 49, 56, 36, 50]
    bs_tree = BinarySortTree()
    for i in range(len(lis)):
        bs_tree.insert(lis[i])
    # bs_tree.insert(100)
    bs_tree.delete(58)
    for i in bs_tree:
        print(i, end=" ")
    # print("\n", bs_tree.search(4))

12345678910111213141516

常用查詢資料結構及演算法（Python實現）

一、基本概念

二、無序表查詢

三、有序表查詢

1. 二分查詢(Binary Search)

2. 插值查詢

3. 斐波那契查詢

四、線性索引查詢

五、二叉排序樹

常用查詢資料結構及演算法（Python實現）

資料結構與演算法（JavaScript實現）

資料結構-迴圈佇列（Python實現）

為什麼我要放棄javaScript資料結構與演算法（第一章）—— JavaScript簡介

為什麼我要放棄javaScript資料結構與演算法（第二章）—— 陣列

資料結構與演算法（C語言） | 二叉排序樹

資料結構與演算法（十二）並查集(Union Find)

資料結構與演算法（Java描述）-20、圖、圖的鄰接矩陣、有向圖的廣度優先遍歷與深度優先遍歷

資料結構與演算法（java版）

[資料結構]貪婪演算法（Dijkstra Algorithm）

資料結構與演算法（Java描述）-15、稀疏矩陣以及稀疏矩陣的三元組實現

走進資料結構和演算法（c++版）（3）——線性表的鏈式儲存結構

常用資料預處理技術（python實現）

資料結構與演算法（C語言） | 線性表（順序儲存、鏈式儲存）

資料結構與演算法（十一）Trie字典樹

資料結構-連結串列（java實現）

排序演算法（python實現）

基於畫素清晰度的影象融合演算法（Python實現）

C4.5決策樹演算法（Python實現）

資料結構--連結串列（C實現）

常用查詢資料結構及演算法（Python實現）

一、基本概念

二、無序表查詢

三、有序表查詢

1. 二分查詢(Binary Search)

2. 插值查詢

3. 斐波那契查詢

四、線性索引查詢

五、二叉排序樹

相關推薦