資料結構索引結構與雜湊

阿新 • • 發佈：2018-12-26

知識要點：

線性索引結構、倒排表、靜態搜尋樹的結構和特點；

B樹的結構；（B-樹，B+樹）

雜湊的實現原理和各種操作的實現演算法。（Hash表，平均查詢長度（成功、失敗））

1.雜湊函式和雜湊地址：記錄存取位置P和關鍵字Key之間的對應關係，有P=Function(Key),這個對應關係Function稱為雜湊函式

通過此函式得出的P稱為雜湊地址。

2.散列表：一個有限的連續的地址空間。（通常採用以為陣列存取，此時的雜湊地址對應的就是陣列的下標，陣列內

儲存的值就是關鍵字Key。）

3.衝突和同義詞：由於雜湊函式的缺陷不同的關鍵字Key可能對應到同一雜湊地址上，這種現象稱為衝突。發生衝突的關鍵字互

稱為當前雜湊函式Function的同義詞。（雜湊函式的缺陷引發衝突，發生衝突的關鍵詞互為同義詞）

☆雜湊函式的構造方法：（數字分析法、平方取中法、摺疊法、除留餘數法）

常用的就是除留餘數法，Function(Key)=Key%p

Key為所要儲存的關鍵字、p為一個不大於散列表長度的數，一幫情況下p取不大於表長的最大質數。

優點：保證了關鍵字所對應的雜湊地址一定在散列表所對應的地址空間中。

☆衝突的處理方法：（開放地址法：線性探測法、二次探測法、偽隨機探測法；鏈地址法）

開放地址法：以空間為代價，散列表大小固定

函式原型：Function(Key)=(Function(Key)+d)%m，Key為關鍵字、m為散列表長、d為遞增量

當d=1時--》線性探測法，當d=1,-1,4,-4,...k*k,-k*k(k<=m/2)時--》二次探測法，當d=偽隨機數時--》偽隨機探測法

二次聚集（堆積）：處理同義詞衝突過程中有增添了非同義詞衝突。（處理衝突時的方法缺陷引起了聚集現象）

鏈地址法：散列表動態增長（不會發生二次聚集現象）

思想把具有相同雜湊地址的關鍵字放在同一個連結串列中。m個雜湊地址對應著m個單鏈表。

☆☆☆散列表查詢效能的分析以及平均查詢長度：

查詢的影響因素（雜湊函式、處理衝突的方法、散列表的填裝因子）

1.填裝因子A的定義（散列表裝滿的程度）：

A=已填充的記錄數/散列表長度，A越小發生衝突的可能性就越小、A越大發生衝突的可能性就越大。

（記憶）不同處理衝突方法的平均查詢長度：平均查詢長度的大小與記錄個數n無關，雜湊列表的填裝因子有關。

線性探測法：增量為1；成功：1/2 (1+1/(1-A)) 失敗：1/2 (1+1/(1-A)^2)

二次探測法：增量正負交替，按照平方進行；成功：-1/A ln(1-A) 失敗：1/(1-A)

鏈地址法：無增量，在同一鏈式地址下面；成功：1+A/2 失敗：A+e^-A

（在已知平均查詢成功長度和查詢表的儲存元素個數可以求出散列表長度）

2.平均查詢長度：（在查詢概率相同的情況下）

查詢成功：

查詢成功平均比較次數=各個關鍵字的比較次數之和/關鍵字個數，

ASL(success)=1/n(C1+C2+.....+Cn) Cn為查詢到第n個記錄所需要進行比較的次數,n為表中記錄個數。

查詢失敗：

查詢失敗對應的兩種情況。1）查詢單元為空NULL。2）按照處理衝突的方法探測一遍之後仍未找到。

假設雜湊函式取值的個數為r,則0--r-1相當於有r個查詢失敗的入口，從每個入口進入到失敗為止，其關鍵字的比較次數

就是與該入口對應的查詢失敗的查詢長度。

ASL(default)=1/r(C1+C2+.....+Cr) Cr為雜湊函式取值為r時查詢失敗比較次數,r為雜湊函式取值個數。

例題：使用雜湊函式H(key)-key%11，將資料{1，13，12，34，38，33，27，22}加入散列表中,

採用線性探測法（增長因子d為1）：

下標	0	1	2	3	4	5	6	7	8	9	10
雜湊值	33	1	13	12	34	38	27	22
比較次數	1	1	1	3	4	1	2	8

查詢成功的平均比較次數：（1*4+3+4+2+8）/8=21/8；

查詢失敗的比較次數：(3+(2+9)*4)/11=47/11；（雜湊地址空間內的元素查詢）

B-樹定義：要麼為空樹、要麼為滿足下列性質的m叉樹；

1）樹中至多每個結點有m個子樹；

2）如果根結點不是葉子結點，則根結點至少有兩顆子樹；

3）除了根結點以外的其他非終端結點至少有m/2上取整顆子樹；

4）所有的葉子結點必然在同一層次上，而且不攜帶有資訊，通常稱為失敗結點；

5）所有非終端結點至多有m-1個關鍵字；

性質：平衡（所有葉子結點均在同一層次上）、有序（結點內部關鍵字大小有序）、多路（m叉樹）；

總結：m叉樹，每個結點最多有m-1個關鍵字；至少有m/2上取整-1個關鍵字；

（結點數k，(m/2)-1<=k<=m-1）

樹的最大分支數（關鍵字的個數+1）決定了該樹的階數；

B-樹的查詢類似於分塊查詢和順序查詢：查詢順序從根結點開始，由上至下查詢關鍵字所在結點的位置，在每個結點內部

採用順序查詢的方式查詢關鍵字，如果查到葉子結點則表明查詢失敗。

B-樹的插入：（由上到下查詢插入結點位置）

在最底層某個非終端結點新增一個關鍵字，如果插入後此結點關鍵字個數小於等於m-1則插入成功；

如果大於m-1則將此結點以中間關鍵字為界限一分為二，並將中間關鍵字移入雙親結點上，如果雙親結點已滿，

則按照同樣的方法進行分裂；

B-樹的刪除：1）被刪關鍵字所在結點內關鍵字數目不小於m/2上取整，則直接去掉與其對應的指標即可（直接刪除）

2）被刪關鍵字所在結點關鍵字數目等於m/2上取整減1，而與其相鄰的右（左）兄弟結點中的關鍵字個數

大於m/2上取整減1，則將其兄弟結點中的最大（最小）的關鍵字上移至雙親結點中，而將雙親節點中

而將雙親結點中大於（小於）且緊靠該上移關鍵字的關鍵字下移至被刪關鍵字所在的結點位置。

3）被刪關鍵字所在結點和其相鄰兄弟結點的關鍵字數目均小於m/2上取整減1。假設該結點有左右兄弟，

且其右兄弟結點地址由雙親結點中的指標P所指，則在刪除關鍵字之後，它所在結點中剩餘關鍵字

和指標，加上雙親結點中的關鍵字K一起合併到，P所指的兄弟結點中去（若沒有右兄弟，則合併到左兄弟中）

B-樹的應用：磁碟管理系統的目錄管理、資料庫系統中的索引組織管理；

B+樹的定義：1）有n顆子樹結點含有n個關鍵字；

2）所有葉子結點中包含了全部關鍵字資訊，以及指向含這些關鍵字記錄的指標，且葉子結點本身

關鍵字的大小自小而大順序連線；

3）非終端結點可以看成索引部分，結點中僅含有其子樹（根結點）中最大（最小）的關鍵字；

資料結構索引結構與雜湊

知識要點：線性索引結構、倒排表、靜態搜尋樹的結構和特點； B樹的結構；（B-樹，B+樹）雜湊的實現原理和各種操作的實現演算法。（Hash表，平均查詢長度（成功、失敗）） 1.雜湊函式和雜湊地址：記錄存取位置P和關鍵字Key之間的對應關係，有P=Function(K

Linux核心工程導論——資料結構：連結串列與雜湊

scatterlist table由於可以被拼接（chain），不同的scatterlist如果所指向的記憶體是相鄰的還可以被合併，所以其遍歷格外複雜。1.4 llistllist全稱是Lock-less NULL terminated single linked list，意思是不需要加鎖

自己動手實現java資料結構（五）雜湊表

1.雜湊表介紹　　前面我們已經介紹了許多型別的資料結構。在想要查詢容器內特定元素時，有序向量使得我們能使用二分查詢法進行精確的查詢((O(logN)對數複雜度，很高效)。　　可人類總是不知滿足，依然在尋求一種更高效的特定元素查詢的資料結構，雜湊表/散列表(hash table)就應運而生啦。雜湊表在特定元

【重點，要考的】資料結構及演算法基礎--雜湊圖（HashMap）

HashMap可以說是java中最常見的幾種集合了。在瞭解HashMap前我們要先了解Object的兩個方法：Equals和h

資料庫開發（8）索引與雜湊

1、有兩種基本的索引型別：順序索引：基於值的順序排列。雜湊索引：基於將值平均分佈到若干雜湊桶中。一個值所屬的雜湊桶是由一個雜湊函式決定的。 2、對於技術選用基於以下因素考慮： 1）訪問型別：訪問型別可以包括找到具有特定屬性值的記錄，以及找到屬性值落在某個特定範圍內的記錄

11索引與雜湊

SQL索引 SQL建立索引 create index <index-name> on <relation-name>(<attribute-list>); create unique index <in

Redis記憶體資料庫命令大全——字串、雜湊

個人原創，簡約實戰無廢話，歡迎大家轉載，不足之處期待您在留言處指出，謝謝！在window上將redis安裝到服務中，redis-server --service-install redis.windows-service.conf 一字串型別鍵值操作命令 2 glob

memcached 取模與雜湊演算法命中率實驗

當5臺memcache伺服器中有一臺宕機時的命中率實驗。一、php實現程式碼　　1. config.php 　　　　 $server = array( "A" => array("host" => "127.0.0.1", "port" => 11211

hbase系列-Hbase熱點問題、資料傾斜和rowkey的雜湊設計

1、分散式與並行處理分散式系統通常，我們說分散式系統的時候，我們都會想到Dubbo框架和SpringCloud框架。這兩個框架現在應該是國內用的比較多的兩個分散式框架了，特點都是很容易把服務部署在多臺機器組成一個高可用的服務叢集來應對高併發。所以，我們通常認為分散式系統就是多臺機

查詢演算法，簡單查詢，二叉排序樹，索引查詢，雜湊表

利用了元素間的次序關係，採用分治策略，可在最壞的情況下用O(log n)完成搜尋任務。它的基本思想是，將n個元素分成個數大致相同的兩半，取a[n/2]與欲查詢的x作比較，如果x=a[n/2]則找到x，演算法終止。如果x<a[n/2]，則我們只要在陣列a的左半部繼續搜尋x（這裡假設陣列元素呈升序排列）

Java 集合：HashMap（put方法的實現與雜湊衝突）

HashMap 概念對於 Map ，最直觀就是理解就是鍵值對，對映，key-value 形式。一個對映不能包含重複的鍵，一個鍵只能有一個值。平常我們使用的時候，最常用的無非就是 HashMap。 HashMap 實現了 Map 介面，允許使用 null 值和 nu

字典樹簡介、應用以及與雜湊表的比較

題目要求： 1、設計並實現N-array trie,包括初始化，查詢，插入，刪除等。 2、應用trie結構實現文字文件的索引化，首先掃描文字文件，然後利用trie結構記錄單詞行號，最後在trie上實現查詢 3、使用者的查詢可以是針對一個單詞，也可以是某些字母開

ruby 陣列與雜湊雜湊小結

首先安裝 ruby 安裝 rvm => ruby => rubymine 首先是陣列的建立 names = [ ] #定義一個空陣列 names = Array.new #建立陣列 names = Array.new(20) #設定陣列的大小我們還可以返回陣列的長度 names =

Java基礎-理解雜湊與雜湊碼

1.從HashMap說起我們知道Map以鍵值對的形式來儲存資料。有一點值得說明的是，如果要使用我們自己的類作為鍵，我們必須同時重寫hashCode() 和 equals()兩個方法。HashMap使用equals方法來判斷當前的鍵是否與表中的鍵相同。equa

資料結構與演算法之美專欄學習筆記-雜湊演算法

雜湊演算法的定義和原理將任意長度的二進位制串對映為固定長度的二進位制串。這個對映的規則就是雜湊演算法，而通過原始資料對映之後得到的二進位制串就是雜湊值。設計一個優秀的雜湊演算法需要滿足：從雜湊值不能反向推匯出原始資料（所以雜湊演算法也叫單向雜湊演算法）；對輸入資料非常敏感，哪怕原始

redis 系列9 物件型別(字串，雜湊，列表，集合，有序集合)與資料結構關係

原文: redis 系列9 物件型別(字串，雜湊，列表，集合，有序集合)與資料結構關係一.概述　　在前面章節中，主要了解了 Redis用到的主要資料結構，包括：簡單動態字串、連結串列(雙端連結串列)、字典、跳躍表、整數集合、壓縮列表(後面再瞭解)。Redis沒有直接使用這些資料結構來實現鍵

《資料結構與演算法之美》專欄閱讀筆記5——散列表和雜湊函式

這應該是看完最呆（沒有想到的那種呆~）的一個小章節了，給作者鼓掌，講的好好。果然抽象能力才是王道文章目錄 1、散列表 1.1、小概念 1.2、雜湊函式 1

java版資料結構與演算法—線性探測雜湊表

package com.zoujc.hash; /** *雜湊表：優點：速度快（插入和查詢） * 缺點：基於陣列，不能有序遍歷 * 鍵值對：通過鍵訪問值 * 衝突：不同的關鍵字經過雜湊化得到的陣列下標出現了重複 * 解決衝突：1.開放地址法（線性探測

資料結構與算法系列16--雜湊演算法

什麼的雜湊演算法？將任意長度的二進位制值串對映為固定長度的二進位制值串，這個對映的規則就是雜湊演算法。而通過原始資料對映後得到的二進位制值串就是雜湊值。一個優秀的雜湊演算法應該滿足哪幾點？從原始資料計算得到的雜湊值，不能反向推匯出原始資料的值。對輸入的資料非

資料結構與算法系列15(下)--散列表(雜湊表)

藉助散列表，實現一個高效的LRU快取淘汰演算法首先，我們先回顧一下只使用連結串列是怎麼實現一個LRU快取淘汰演算法的。我們需要維護一個按照訪問時間從小到大有序排列的連結串列結構，當我們需要快取一個數據時，首先我們會在連結串列中查詢是否已經存在該資料，如果存在，則將資料移到連結串列的末

資料結構 索引結構與雜湊

相關推薦

資料結構索引結構與雜湊