1. 程式人生 > 其它 >以HashMap和HashSet原始碼分析其Hash演算法(jdk7之前原始碼分析)

以HashMap和HashSet原始碼分析其Hash演算法(jdk7之前原始碼分析)

目錄
宣告:以下文章是以jdk7之前原始碼分析,而非現在jdk8原始碼分析,學習過去原始碼可以方便打牢原始碼基礎,點選此處
學習jdk8之Map語法

1 分析Hash儲存機制

1.1 概述

HashSetHashMap 之間有很多相似之處,對於 HashSet 而言,系統採用 Hash演算法決定集合元素的儲存位置,這樣可以保證能快速存、取集合元素;對於 HashMap 而言,系統 key-value 當成一個整體進行處理,系統總是根據 Hash 演算法來計算 key-value 的儲存位置,這樣可以保證能快速存、取 Mapkey-value 對。
在介紹集合儲存之前需要指出一點:雖然集合號稱儲存的是 Java 物件,但實際上並不會真正將 Java 物件放入 Set 集合中,只是在 Set 集合中保留這些物件的引用而言。也就是說:Java

集合實際上是多個引用變數所組成的集合,這些引用變數指向實際的 Java 物件。

1.2 HashMap的儲存實現

當程式試圖將多個 key-value 放入 HashMap 中時,以如下程式碼片段為例:

HashMap<String , Double> map = new HashMap<String , Double>();
map.put("語文" , 80.0);
map.put("數學" , 89.0);
map.put("英語" , 78.2);

HashMap 採用一種所謂的Hash 演算法來決定每個元素的儲存位置。
當程式執行 map.put(“語文” , 80.0);

時,系統將呼叫語文hashCode() 方法得到其 hashCode 值——每個Java 物件都有 hashCode() 方法,都可通過該方法獲得它的 hashCode 值。得到這個物件的 hashCode 值之後,系統會根據該 hashCode 值來決定該元素的儲存位置。
我們可以看 HashMap 類的 put(K key , V value) 方法的原始碼:

public V put(K key, V value)
{
    // 如果 key 為 null,呼叫 putForNullKey 方法進行處理
    if (key == null)
        return putForNullKey(value);
    // 根據 key 的 keyCode 計算 Hash 值
    int hash = hash(key.hashCode());
    // 搜尋指定 hash 值在對應 table 中的索引
 int i = indexFor(hash, table.length);
    // 如果 i 索引處的 Entry 不為 null,通過迴圈不斷遍歷 e 元素的下一個元素
    for (Entry<K,V> e = table[i]; e != null; e = e.next)
    {
        Object k;
        // 找到指定 key 與需要放入的 key 相等(hash 值相同
        // 通過 equals 比較放回 true)
        if (e.hash == hash && ((k = e.key) == key
            || key.equals(k)))
        {
            V oldValue = e.value;
            e.value = value;
            e.recordAccess(this);
            return oldValue;
        }
    }
    // 如果 i 索引處的 Entry 為 null,表明此處還沒有 Entry
    modCount++;
    // 將 key、value 新增到 i 索引處
    addEntry(hash, key, value, i);
    return null;
}

上面程式中用到了一個重要的內部介面:Map.Entry,每個 Map.Entry 其實就是一個 key-value
從上面程式中可以看出:當系統決定儲存 HashMap 中的 key-value 對時,完全沒有考慮 Entry 中的 value,僅僅只是根據 key 來計算並決定每個 Entry 的儲存位置。這也說明了前面的結論:可以把 Map 集合中的 value 當成 key 的附屬,當系統決定了 key 的儲存位置之後,value 隨之儲存在那裡即可。
上面方法提供了一個根據 hashCode() 返回值來計算 Hash 碼的方法:hash(),這個方法是一個純粹的數學計算,其方法如下:

static int hash(int h)
{
    h ^= (h >>> 20) ^ (h >>> 12);
    return h ^ (h >>> 7) ^ (h >>> 4);
}

對於任意給定的物件,只要它的 hashCode() 返回值相同,那麼程式呼叫 hash(int h) 方法所計算得到的 Hash碼值 總是相同的。接下來程式會呼叫 indexFor(int h, int length) 方法來計算該物件應該儲存在 table 陣列的哪個索引處。indexFor(int h, int length) 方法的程式碼如下:

static int indexFor(int h, int length)
{
    return h & (length-1);
}

這個方法非常巧妙,它總是通過 h &(table.length -1) 來得到該物件的儲存位置——而 HashMap 底層陣列的長度總是 2 的 n 次方
length 總是 2 的倍數時,h & (length-1)將是一個非常巧妙的設計:假設 h=5,length=16, 那麼h & length - 1將得到 5;如果 h=6,length=16, 那麼 h & length - 1 將得到 6 ……
如果 h=15,length=16, 那麼 h & length - 1 將得到 15;但是當 h=16 時 , length=16 時,那麼 h & length - 1 將得到 0 了;當 h=17 時 , length=16 時,那麼 h & length - 1 將得到1了……
這樣保證計算得到的索引值總是位於 table 陣列的索引之內。

根據上面 put 方法的原始碼可以看出,當程式試圖將一個 key-value 對放入 HashMap 中時,程式首先根據該 keyhashCode() 返回值決定該 Entry 的儲存位置:如果兩個 EntrykeyhashCode() 返回值相同,那它們的儲存位置相同。如果這兩個 Entrykey 通過 equals 比較返回 true,新新增 Entryvalue 將覆蓋集合中原有 Entryvalue,但 key 不會覆蓋。如果這兩個 Entrykey 通過 equals 比較返回 false,新新增的 Entry 將與集合中原有 Entry 形成 Entry 鏈,而且新新增的 Entry 位於 Entry 鏈的頭部。

上面程式中還呼叫了 addEntry(hash, key, value, i); 程式碼,其中 addEntry HashMap 提供的一個包訪問許可權的方法,該方法僅用於新增一個 key-value 對。下面是該方法的程式碼:

void addEntry(int hash, K key, V value, int bucketIndex)
{
    // 獲取指定 bucketIndex 索引處的 Entry
    Entry<K,V> e = table[bucketIndex];     // ①
    // 將新建立的 Entry 放入 bucketIndex 索引處,並讓新的 Entry 指向原來的 Entry
    table[bucketIndex] = new Entry<K,V>(hash, key, value, e);
    // 如果 Map 中的 key-value 對的數量超過了極限
    if (size++ >= threshold)
        // 把 table 物件的長度擴充到 2 倍。
        resize(2 * table.length);    // ②
}

上面方法的程式碼很簡單,但其中包含了一個非常優雅的設計:系統總是將新新增的Entry物件放入 table 陣列的 bucketIndex 索引處——如果bucketIndex索引處已經有了一個 Entry 物件,那新新增的 Entry 物件指向原有的 Entry 物件(產生一個 Entry 鏈),如果 bucketIndex 索引處沒有 Entry 物件,也就是上面程式①號程式碼的 e 變數是 null,也就是新放入的 Entry 物件指向 null,也就是沒有產生 Entry

1.3 Hash演算法的效能選項

根據上面程式碼可以看出,在同一個 bucket 儲存 Entry鏈的情況下,新放入的 Entry 總是位於 bucket 中,而最早放入該 bucket 中的 Entry 則位於這個 Entry 鏈的最末端。
上面程式中還有這樣兩個變數:

  • size:該變數儲存了該 HashMap 中所包含的 key-value 對的數量。
  • threshold:該變數包含了 HashMap 能容納的 key-value 對的極限,它的值等於 HashMap 的容量乘以負載因子(load factor)。

從上面程式中②號程式碼可以看出,當 size++ >= threshold 時,HashMap 會自動呼叫 resize 方法擴充 HashMap 的容量。每擴充一次,HashMap 的容量就增大一倍。
上面程式中使用的 table 其實就是一個普通陣列,每個陣列都有一個固定的長度,這個陣列的長度就是 HashMap 的容量。HashMap 包含如下幾個構造器:

  • HashMap():構建一個初始容量為 16,負載因子為 0.75 HashMap
  • HashMap(int initialCapacity):構建一個初始容量為 initialCapacity,負載因子為 0.75 HashMap
  • HashMap(int initialCapacity, float loadFactor):以指定初始容量、指定的負載因子建立一個 HashMap

當建立一個 HashMap 時,系統會自動建立一個 table 陣列來儲存 HashMap 中的 Entry,下面是 HashMap 中一個構造器的程式碼:

// 以指定初始化容量、負載因子建立 HashMap
public HashMap(int initialCapacity, float loadFactor)
{
    // 初始容量不能為負數
    if (initialCapacity < 0)
        throw new IllegalArgumentException(
       "Illegal initial capacity: " +
            initialCapacity);
    // 如果初始容量大於最大容量,讓出示容量
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    // 負載因子必須大於 0 的數值
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException(
        loadFactor);
    // 計算出大於 initialCapacity 的最小的 2 的 n 次方值。
    int capacity = 1;
    while (capacity < initialCapacity)
        capacity <<= 1;
    this.loadFactor = loadFactor;
    // 設定容量極限等於容量 * 負載因子
    threshold = (int)(capacity * loadFactor);
    // 初始化 table 陣列
    table = new Entry[capacity];            // ①
    init();
}

找出大於 initialCapacity 的、最小的 2n 次方值,並將其作為 HashMap 的實際容量(由capacity變數儲存)。例如給定 initialCapacity 10,那麼該 HashMap 的實際容量就是 16
程式①號程式碼處可以看到:table 的實質就是一個陣列,一個長度為 capacity 的陣列。
對於 HashMap 及其子類而言,它們採用 Hash 演算法來決定集合中元素的儲存位置。當系統開始初始化 HashMap 時,系統會建立一個長度為 capacityEntry 陣列,這個數組裡可以儲存元素的位置被稱為桶(bucket),每個 bucket 都有其指定索引,系統可以根據其索引快速訪問該 bucket 裡儲存的元素。
無論何時,HashMap 的每個只儲存一個元素(也就是一個 Entry),由於 Entry 物件可以包含一個引用變數(就是 Entry 構造器的的最後一個引數)用於指向下一個 Entry,因此可能出現的情況是:HashMapbucket 中只有一個 Entry,但這個 Entry 指向另一個 Entry ——這就形成了一個 Entry 鏈。如圖 1 所示:
圖 1. HashMap 的儲存示意

1.4 HashMap 的讀取實現

HashMap 的每個 bucket 裡儲存的 Entry 只是單個 Entry ——也就是沒有通過指標產生 Entry 鏈時,此時的 HashMap 具有最好的效能:當程式通過 key 取出對應 value 時,系統只要先計算出該 keyhashCode() 返回值,在根據該 hashCode 返回值找出該 keytable 陣列中的索引,然後取出該索引處的 Entry,最後返回該 key 對應的 value 即可。看 HashMap 類的 get(K key) 方法程式碼:

public V get(Object key)
{
    // 如果 key 是 null,呼叫 getForNullKey 取出對應的 value
    if (key == null)
        return getForNullKey();
    // 根據該 key 的 hashCode 值計算它的 hash 碼
    int hash = hash(key.hashCode());
    // 直接取出 table 陣列中指定索引處的值,
    for (Entry<K,V> e = table[indexFor(hash, table.length)];
        e != null;
        // 搜尋該 Entry 鏈的下一個 Entr
        e = e.next)         // ①
    {
        Object k;
        // 如果該 Entry 的 key 與被搜尋 key 相同
        if (e.hash == hash && ((k = e.key) == key
            || key.equals(k)))
            return e.value;
    }
    return null;
}

從上面程式碼中可以看出,如果 HashMap 的每個 bucket 裡只有一個 Entry 時,HashMap 可以根據索引、快速地取出該 bucket 裡的 Entry;在發生Hash 衝突的情況下,單個 bucket 裡儲存的不是一個 Entry,而是一個 Entry 鏈,系統只能必須按順序遍歷每個 Entry,直到找到想搜尋的 Entry 為止——如果恰好要搜尋的 Entry 位於該 Entry 鏈的最末端(該 Entry 是最早放入該 bucket 中),那系統必須迴圈到最後才能找到該元素。
歸納起來簡單地說,HashMap 在底層將 key-value 當成一個整體進行處理,這個整體就是一個 Entry 物件。HashMap 底層採用一個 Entry[] 陣列來儲存所有的 key-value 對,當需要儲存一個 Entry 物件時,會根據 Hash 演算法來決定其儲存位置;當需要取出一個 Entry 時,也會根據 Hash 演算法找到其儲存位置,直接取出該 Entry。由此可見:HashMap 之所以能快速存、取它所包含的 Entry,完全類似於現實生活中母親從小教我們的:不同的東西要放在不同的位置,需要時才能快速找到它。
當建立 HashMap 時,有一個預設的負載因子(load factor),其預設值為 0.75,這是時間和空間成本上一種折衷:增大負載因子可以減少 Hash 表(就是那個 Entry 陣列)所佔用的記憶體空間,但會增加查詢資料的時間開銷,而查詢是最頻繁的的操作(HashMapget()put() 方法都要用到查詢);減小負載因子會提高資料查詢的效能,但會增加 Hash 表所佔用的記憶體空間。
掌握了上面知識之後,可以在建立 HashMap 時根據實際需要適當地調整 load factor 的值;如果程式比較關心空間開銷、記憶體比較緊張,可以適當地增加負載因子;如果程式比較關心時間開銷,記憶體比較寬裕則可以適當的減少負載因子。通常情況下,程式設計師無需改變負載因子的值。
如果開始就知道 HashMap 會儲存多個 key-value 對,可以在建立時就使用較大的初始化容量,如果 HashMapEntry 的數量一直不會超過極限容量(capacity * load factor),HashMap 就無需呼叫 resize() 方法重新分配 table 陣列,從而保證較好的效能。當然,開始就將初始容量設定太高可能會浪費空間(系統需要建立一個長度為 capacityEntry 陣列),因此建立 HashMap 時初始化容量設定也需要小心對待。

1.5 HashSet 的實現

對於 HashSet 而言,它是基於 HashMap 實現的,HashSet 底層採用 HashMap 來儲存所有元素,因此 HashSet 的實現比較簡單,檢視 HashSet 的原始碼,可以看到如下程式碼:

public class HashSet<E>
    extends AbstractSet<E>
    implements Set<E>, Cloneable, java.io.Serializable
{
    // 使用 HashMap 的 key 儲存 HashSet 中所有元素
    private transient HashMap<E,Object> map;
    // 定義一個虛擬的 Object 物件作為 HashMap 的 value
    private static final Object PRESENT = new Object();
    ...
    // 初始化 HashSet,底層會初始化一個 HashMap
    public HashSet()
    {
        map = new HashMap<E,Object>();
    }
    // 以指定的 initialCapacity、loadFactor 建立 HashSet
    // 其實就是以相應的引數建立 HashMap
    public HashSet(int initialCapacity, float loadFactor)
    {
        map = new HashMap<E,Object>(initialCapacity, loadFactor);
    }
    public HashSet(int initialCapacity)
    {
        map = new HashMap<E,Object>(initialCapacity);
    }
    HashSet(int initialCapacity, float loadFactor, boolean dummy)
    {
        map = new LinkedHashMap<E,Object>(initialCapacity
            , loadFactor);
    }
    // 呼叫 map 的 keySet 來返回所有的 key
    public Iterator<E> iterator()
    {
        return map.keySet().iterator();
    }
    // 呼叫 HashMap 的 size() 方法返回 Entry 的數量,就得到該 Set 裡元素的個數
    public int size()
    {
        return map.size();
    }
    // 呼叫 HashMap 的 isEmpty() 判斷該 HashSet 是否為空,
    // 當 HashMap 為空時,對應的 HashSet 也為空
    public boolean isEmpty()
    {
        return map.isEmpty();
    }
    // 呼叫 HashMap 的 containsKey 判斷是否包含指定 key
    //HashSet 的所有元素就是通過 HashMap 的 key 來儲存的
    public boolean contains(Object o)
    {
        return map.containsKey(o);
    }
    // 將指定元素放入 HashSet 中,也就是將該元素作為 key 放入 HashMap
    public boolean add(E e)
    {
        return map.put(e, PRESENT) == null;
    }
    // 呼叫 HashMap 的 remove 方法刪除指定 Entry,也就刪除了 HashSet 中對應的元素
    public boolean remove(Object o)
    {
        return map.remove(o)==PRESENT;
    }
    // 呼叫 Map 的 clear 方法清空所有 Entry,也就清空了 HashSet 中所有元素
    public void clear()
    {
        map.clear();
    }
    ...
}

由上面源程式可以看出,HashSet 的實現其實非常簡單,它只是封裝了一個 HashMap 物件來儲存所有的集合元素,所有放入 HashSet 中的集合元素實際上由 HashMapkey 來儲存,而 HashMapvalue 則儲存了一個 PRESENT,它是一個靜態的 Object 物件。
HashSet 的絕大部分方法都是通過呼叫 HashMap 的方法來實現的,因此 HashSetHashMap 兩個集合在實現本質上是相同的。

1.6 HashMap的put與HashSet的add

由於HashSetadd()方法新增集合元素時實際上轉變為呼叫 HashMapput() 方法來新增 key-value 對,當新放入 HashMapEntrykey 與集合中原有 Entrykey 相同(hashCode() 返回值相等,通過 equals 比較也返回 true),新新增的 Entryvalue 將覆蓋原來 Entryvalue,但 key 不會有任何改變,因此如果向 HashSet 中新增一個已經存在的元素,新新增的集合元素(底層由 HashMapkey 儲存)不會覆蓋已有的集合元素。
掌握上面理論知識之後,接下來看一個示例程式,測試一下自己是否真正掌握了 HashMapHashSet 集合的功能。

class Name
{
    private String first;
    private String last;
 
    public Name(String first, String last)
    {
        this.first = first;
        this.last = last;
    }
 
    public boolean equals(Object o)
    {
        if (this == o)
        {
            return true;
        }
 
    if (o.getClass() == Name.class)
        {
            Name n = (Name)o;
            return n.first.equals(first)
                && n.last.equals(last);
        }
        return false;
    }
}
 
public class HashSetTest
{
    public static void main(String[] args)
    {
        Set<Name> s = new HashSet<Name>();
        s.add(new Name("abc", "123"));
        System.out.println(
            s.contains(new Name("abc", "123")));
    }
}

上面程式中向 HashSet 裡添加了一個 new Name(“abc”, “123″) 物件之後,立即通過程式判斷該 HashSet 是否包含一個 new Name(“abc”, “123″) 物件。粗看上去,很容易以為該程式會輸出 true
實際執行上面程式將看到程式輸出 false,這是因為HashSet判斷兩個物件相等的標準除了要求通過 equals() 方法比較返回 true 之外,還要求兩個物件的 hashCode() 返回值相等。而上面程式沒有重寫 Name 類的hashCode()方法,兩個 Name 物件的 hashCode() 返回值並不相同,因此 HashSet 會把它們當成 2 個物件處理,因此程式返回 false
由此可見,當我們試圖把某個類的物件當成 HashMapkey,或試圖將這個類的物件放入 HashSet 中儲存時,重寫該類的equals(Object obj)方法和 hashCode() 方法很重要,而且這兩個方法的返回值必須保持一致:當該類的兩個的 hashCode() 返回值相同時,它們通過 equals() 方法比較也應該返回 true。通常來說,所有參與計算 hashCode() 返回值的關鍵屬性,都應該用於作為 equals() 比較的標準。
如下程式就正確重寫了 Name 類的 hashCode()equals()方法,程式如下:

class Name
{
    private String first;
    private String last;
    public Name(String first, String last)
    {
        this.first = first;
        this.last = last;
    }
    // 根據 first 判斷兩個 Name 是否相等
    public boolean equals(Object o)
    {
        if (this == o)
        {
            return true;
        }
        if (o.getClass() == Name.class)
        {
            Name n = (Name)o;
            return n.first.equals(first);
        }
        return false;
    }
 
    // 根據 first 計算 Name 物件的 hashCode() 返回值
    public int hashCode()
    {
        return first.hashCode();
    }
 
    public String toString()
    {
        return "Name[first=" + first + ", last=" + last + "]";
    }
 }
 
 public class HashSetTest2
 {
    public static void main(String[] args)
    {
        HashSet<Name> set = new HashSet<Name>();
        set.add(new Name("abc" , "123"));
        set.add(new Name("abc" , "456"));
        System.out.println(set);
    }
}

上面程式中提供了一個 Name 類,該 Name 類重寫了 equals()toString() 兩個方法,這兩個方法都是根據 Name 類的 first 例項變數來判斷的,當兩個 Name 物件的 first 例項變數相等時,這兩個 Name 物件的 hashCode() 返回值也相同,通過 equals() 比較也會返回 true
程式主方法先將第一個 Name 物件新增到 HashSet 中,該 Name 物件的 first 例項變數值為abc,接著程式再次試圖將一個 firstabcName 物件新增到 HashSet 中,很明顯,此時沒法將新的 Name 物件新增到該 HashSet 中,因為此處試圖新增的 Name 物件的 first 也是abcHashSet 會判斷此處新增的 Name 物件與原有的 Name 物件相同,因此無法新增進入,程式在①號程式碼處輸出 set 集合時將看到該集合裡只包含一個 Name 物件,就是第一個last123Name 物件。

2 通過例子分析Hash演算法

2.1 問題引入

搜尋引擎會通過日誌檔案把使用者每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255位元組。假設目前有一千萬個記錄(這些查詢串的重複度比較高,雖然總數是1千萬,但如果除去重複後,不超過3百萬個。一個查詢串的重複度越高,說明查詢它的使用者越多,也就是越熱門。),請統計最熱門的10個查詢串,要求使用的記憶體不能超過1G

2.1.1 什麼是雜湊表?

雜湊表(Hash table,也叫散列表),是根據關鍵碼值(Key value)而直接進行訪問的資料結構。也就是說,它通過把關鍵碼值對映到表中一個位置來訪問記錄,以加快查詢的速度。這個對映函式叫做雜湊函式,存放記錄的陣列叫做散列表。
雜湊表的做法其實很簡單,就是把Key通過一個固定的演算法函式既所謂的雜湊函式轉換成一個整型數字,然後就將該數字對陣列長度進行取餘,取餘結果就當作陣列的下標,將value儲存在以該數字為下標的陣列空間裡。而當使用雜湊表進行查詢的時候,就是再次使用雜湊函式將key轉換為對應的陣列下標,並定位到該空間獲取value,如此一來,就可以充分利用到陣列的定位效能進行資料定位

2.1.2 問題解析

要統計最熱門查詢,首先就是要統計每個Query出現的次數,然後根據統計結果,找出Top 10。所以我們可以基於這個思路分兩步來設計該演算法。
即,此問題的解決分為以下倆個步驟:
第一步:Query統計
Query統計有以下倆個方法,可供選擇:

  1. 直接排序法
    首先我們最先想到的演算法就是排序了,首先對這個日誌裡面的所有Query都進行排序,然後再遍歷排好序的Query,統計每個Query出現的次數了。
    但是題目中有明確要求,那就是記憶體不能超過1G,一千萬條記錄,每條記錄是255Byte,很顯然要佔據2.375G記憶體,這個條件就不滿足要求了。
    讓我們回憶一下資料結構課程上的內容,當資料量比較大而且記憶體無法裝下的時候,我們可以採用外排序的方法來進行排序,這裡我們可以採用歸併排序,因為歸併排序有一個比較好的時間複雜度O(NlgN)。
    排完序之後我們再對已經有序的Query檔案進行遍歷,統計每個Query出現的次數,再次寫入檔案中。
    綜合分析一下,排序的時間複雜度是O(NlgN),而遍歷的時間複雜度是O(N),因此該演算法的總體時間複雜度就是O(N+NlgN)=O(NlgN)
  2. Hash Table法
    在第1個方法中,我們採用了排序的辦法來統計每個Query出現的次數,時間複雜度是NlgN,那麼能不能有更好的方法來儲存,而時間複雜度更低呢?
    題目中說明了,雖然有一千萬個Query,但是由於重複度比較高,因此事實上只有300萬Query,每個Query255Byte,因此我們可以考慮把他們都放進記憶體中去,而現在只是需要一個合適的資料結構,在這裡,Hash Table絕對是我們優先的選擇,因為Hash Table的查詢速度非常的快,幾乎是O(1)的時間複雜度。
    那麼,我們的演算法就有了:維護一個KeyQuery字串,Value為該Query出現次數的HashTable,每次讀取一個Query,如果該字串不在Table中,那麼加入該字串,並且將Value值設為1;如果該字串在Table中,那麼將該字串的計數加一即可。最終我們在O(N)的時間複雜度內完成了對該海量資料的處理。
    本方法相比演算法1:在時間複雜度上提高了一個數量級,為O(N),但不僅僅是時間複雜度上的優化,該方法只需要IO資料檔案一次,而演算法1IO次數較多的,因此該演算法2比演算法1在工程上有更好的可操作性。

第二步:找出Top 10

  1. 普通排序
    想對於排序演算法大家都已經不陌生了,這裡不在贅述,我們要注意的是排序演算法的時間複雜度是NlgN,在本題目中,三百萬條記錄,用1G記憶體是可以存下的。
  2. 部分排序
    題目要求是求出Top 10,因此我們沒有必要對所有的Query都進行排序,我們只需要維護一個10個大小的陣列,初始化放入10個Query,按照每個Query的統計次數由大到小排序,然後遍歷這300萬條記錄,每讀一條記錄就和陣列最後一個Query對比,如果小於這個Query,那麼繼續遍歷,否則,將陣列中最後一條資料淘汰,加入當前的Query。最後當所有的資料都遍歷完畢之後,那麼這個陣列中的10Query便是我們要找的Top10
    不難分析出,這樣,演算法的最壞時間複雜度是N*K, 其中K是指top多少。

  3. 在演算法二中,我們已經將時間複雜度由NlogN優化到NK,不得不說這是一個比較大的改進了,可是有沒有更好的辦法呢?
    分析一下,在演算法二中,每次比較完成之後,需要的操作複雜度都是K,因為要把元素插入到一個線性表之中,而且採用的是順序比較。這裡我們注意一下,該陣列是有序的,一次我們每次查詢的時候可以採用二分的方法查詢,這樣操作的複雜度就降到了logK,可是,隨之而來的問題就是資料移動,因為移動資料次數增多了。不過,這個演算法還是比演算法二有了改進。
    基於以上的分析,我們想想,有沒有一種既能快速查詢,又能快速移動元素的資料結構呢?回答是肯定的,那就是
    藉助堆結構,我們可以在log量級的時間內查詢和調整/移動。因此到這裡,我們的演算法可以改進為這樣,維護一個K(該題目中是10)大小的小根堆,然後遍歷300萬Query,分別和根元素進行對比。
    思想與上述演算法二一致,只是演算法在演算法三,採用了最小堆這種資料結構代替陣列,把查詢目標元素的時間複雜度有O(K)降到了O(logK)
    那麼這樣,採用堆資料結構,演算法三,最終的時間複雜度就降到了N‘logK,和演算法二相比,又有了比較大的改進。
  4. 總結
    至此,演算法就完全結束了,經過上述第一步、先用Hash表統計每個Query出現的次數,O(N);然後第二步、採用堆資料結構找出Top 10,N*O(logK)。所以,我們最終的時間複雜度是:O(N) + N’*O(logK)。(N為1000萬,N’為300萬)

2.2 Hash表 演算法的詳細解析

2.2.1 什麼是Hash

Hash,一般翻譯做雜湊,也有直接音譯為雜湊的,就是把任意長度的輸入(又叫做預對映, pre-image),通過雜湊演算法,變換成固定長度的輸出,該輸出就是雜湊值。這種轉換是一種壓縮對映,也就是,雜湊值的空間通常遠小於輸入的空間,不同的輸入可能會雜湊成相同的輸出,而不可能從雜湊值來唯一的確定輸入值。簡單的說就是一種將任意長度的訊息壓縮到某一固定長度的訊息摘要的函式。
HASH主要用於資訊保安領域中加密演算法,它把一些不同長度的資訊轉化成雜亂的128位的編碼,這些編碼值叫做HASH值. 也可以說,hash就是找到一種資料內容和資料存放地址之間的對映關係。
陣列的特點是:定址容易,插入和刪除困難;而連結串列的特點是:定址困難,插入和刪除容易。那麼我們能不能綜合兩者的特性,做出一種定址容易,插入刪除也容易的資料結構?答案是肯定的,這就是我們要提起的雜湊表,雜湊表有多種不同的實現方法,我接下來解釋的是最常用的一種方法——拉鍊法,我們可以理解為連結串列的陣列
元素特徵轉變為陣列下標的方法就是雜湊法。雜湊法當然不止一種,下面列出三種比較常用的:

  1. 除法雜湊法
    最直觀的一種,公式:
    index = value % 16
    學過彙編的都知道,求模數其實是通過一個除法運算得到的,所以叫除法雜湊法
  2. 平方雜湊法
    index是非常頻繁的操作,而乘法的運算要比除法來得省時(對現在的CPU來說,估計我們感覺不出來),所以我們考慮把除法換成乘法和一個位移操作。公式:
    index = (value * value) >> 28 (右移,除以2^28。記法:左移變大,是乘。右移變小,是除。)
    如果數值分配比較均勻的話這種方法能得到不錯的結果,但我上面畫的那個圖的各個元素的值算出來的index都是0——非常失敗。也許你還有個問題,value如果很大,value * value不會溢位嗎?答案是會的,但我們這個乘法不關心溢位,因為我們根本不是為了獲取相乘結果,而是為了獲取index
  3. 斐波那契(Fibonacci)雜湊法
    平方雜湊法的缺點是顯而易見的,所以我們能不能找出一個理想的乘數,而不是拿value本身當作乘數呢?答案是肯定的。

對於16位整數而言,這個乘數是40503
對於32位整數而言,這個乘數是2654435769
對於64位整數而言,這個乘數是11400714819323198485

 
這幾個“理想乘數”是如何得出來的呢?這跟一個法則有關,叫黃金分割法則,而描述黃金分割法則的最經典表示式無疑就是著名的斐波那契數列,即如此形式的序列:0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144,233, 377, 610, 987, 1597, 2584, 4181, 6765, 10946,…。另外,斐波那契數列的值和太陽系八大行星的軌道半徑的比例出奇吻合。
對我們常見的32位整數而言,公式:
index = (value * 2654435769) >> 28
用斐波那契雜湊法調整之後要比原來的取摸雜湊法好很多。
適用範圍:快速查詢,刪除的基本資料結構,通常需要總資料量可以放入記憶體。
基本原理及要點:hash函式選擇,針對字串,整數,排列,具體相應的hash方法。
碰撞處理,一種是open hashing,也稱為拉鍊法;另一種就是closed hashing,也稱開地址法,opened addressing。
擴充套件
d-left hashing中的d是多個的意思,我們先簡化這個問題,看一看2-left hashing。2-left hashing指的是將一個雜湊表分成長度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個雜湊函式,h1和h2。在儲存一個新的key時,同 時用兩個雜湊函式進行計算,得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪一個 位置已經儲存的(有碰撞的)key比較多,然後將新key儲存在負載少的位置。如果兩邊一樣多,比如兩個位置都為空或者都儲存了一個key,就把新key 儲存在左邊的T1子表中,2-left也由此而來。在查詢一個key時,必須進行兩次hash,同時查詢兩個位置。

問題例項(海量資料處理)
我們知道hash 表在海量資料處理中有著廣泛的應用,下面,請看另一道百度

2.3 最快的Hash表演算法

由一個簡單的問題逐步入手:有一個龐大的字串陣列,然後給一個單獨的字串,從這個陣列中查詢是否有這個字串並找到它,會怎麼做?有一個方法最簡單,老老實實從頭查到尾,一個一個比較,直到找到為止,我想只要學過程式設計的人都能把這樣一個程式作出來,但要是有程式設計師把這樣的程式交給使用者,我只能用無語來評價,或許它真的能工作,但…也只能如此了。
最合適的演算法自然是使用HashTable(雜湊表),先介紹介紹其中的基本知識,所謂Hash,一般是一個整數,通過某種演算法,可以把一個字串壓縮 成一個整數。當然,無論如何,一個32位整數是無法對應回一個字串的,但在程式中,兩個字串計算出的Hash值相等的可能非常小,下面看看在MPQ中的Hash演算法

2.3.1 函式一

以下的函式生成一個長度為0×500(合10進位制數:1280)的cryptTable[0x500]

void prepareCryptTable()
{
    unsigned long seed = 0x00100001, index1 = 0, index2 = 0, i;
  
    for( index1 = 0; index1 < 0x100; index1++ )
    {
        for( index2 = index1, i = 0; i < 5; i++, index2 += 0x100 )
        {
            unsigned long temp1, temp2;  
            seed = (seed * 125 + 3) % 0x2AAAAB;
            temp1 = (seed & 0xFFFF) << 0x10;  
            seed = (seed * 125 + 3) % 0x2AAAAB;
            temp2 = (seed & 0xFFFF);
            cryptTable[index2] = ( temp1 | temp2 );
       }
   }
}

2.3.2 函式二

以下函式計算lpszFileName 字串的hash值,其中dwHashTypehash的型別,在下面的函式三、GetHashTablePos函式中呼叫此函式二,其可以取的值為0、1、2;該函式返回lpszFileName 字串的hash值:

unsigned long <strong>HashString</strong>( char *lpszFileName, unsigned long dwHashType )
{ 
    unsigned char *key  = (unsigned char *)lpszFileName;
unsigned long seed1 = 0x7FED7FED;
unsigned long seed2 = 0xEEEEEEEE;
    int ch;
  
    while( *key != 0 )
    { 
        ch = toupper(*key++);
  
        seed1 = cryptTable[(dwHashType &lt;&lt; 8) + ch] ^ (seed1 + seed2);
        seed2 = ch + seed1 + seed2 + (seed2 &lt;&lt; 5) + 3; 
    }
    return seed1; 
}

Blizzard的這個演算法是非常高效的,被稱為One-Way Hash( A one-way hash is a an algorithm that is constructed in such a way that deriving the original string (set of strings, actually) is virtually impossible)。舉個例子,字串”unitneutralacritter.grp”通過這個演算法得到的結果是0xA26067F3。

是不是把第一個演算法改進一下,改成逐個比較字串的Hash值就可以了呢,答案是,遠遠不夠,要想得到最快的演算法,就不能進行逐個的比較,通常是構造一個雜湊表(Hash Table)來解決問題,雜湊表是一個大陣列,這個陣列的容量根據程式的要求來定義,例如1024,每一個Hash值通過取模運算 (mod) 對應到陣列中的一個位置,這樣,只要比較這個字串的雜湊值對應的位置有沒有被佔用,就可以得到最後的結果了,想想這是什麼速度?是的,是最快的O(1),現在仔細看看這個演算法吧:

typedef struct
{
    int nHashA;
    int nHashB;
    char bExists;
   ......
} SOMESTRUCTRUE;

2.3.3 函式三

下述函式為在Hash表中查詢是否存在目標字串,有則返回要查詢字串的Hash值,無則,return -1

int <strong>GetHashTablePos</strong>( har *lpszString, SOMESTRUCTURE *lpTable ) 
//lpszString要在Hash表中查詢的字串,lpTable為儲存字串Hash值的Hash表。
{ 
    int nHash = HashString(lpszString);  //呼叫上述函式二,返回要查詢字串lpszString的Hash值。
    int nHashPos = nHash % nTableSize;
  
    if ( lpTable[nHashPos].bExists  &amp;&amp;  !strcmp( lpTable[nHashPos].pString, lpszString ) ) 
    {  //如果找到的Hash值在表中存在,且要查詢的字串與表中對應位置的字串相同,
        return nHashPos;    //則返回上述呼叫函式二後,找到的Hash值
    } 
    else
    {
        return -1;  
    } 
}

看到此,我想大家都在想一個很嚴重的問題:“如果兩個字串在雜湊表中對應的位置相同怎麼辦?”,畢竟一個數組容量是有限的,這種可能性很大。解決該問題的方法很多,首先想到的就是用“連結串列”,感謝大學裡學的資料結構教會了這個百試百靈的法寶,遇到的很多演算法都可以轉化成連結串列來解決,只要在雜湊表的每個入口掛一個連結串列,儲存所有對應的字串就OK了。事情到此似乎有了完美的結局,如果是把問題獨自交給解決,此時我可能就要開始定義資料結構然後寫程式碼了。
然而使用的方法則是更精妙的方法。基本原理就是:他們在雜湊表中不是用一個雜湊值而是用三個雜湊值來校驗字串。
MPQ使用檔名雜湊表來跟蹤內部的所有檔案。但是這個表的格式與正常的雜湊表有一些不同。首先,它沒有使用雜湊作為下標,把實際的檔名儲存在表中用於驗證,實際上它根本就沒有儲存檔名。而是使用了3種不同的雜湊:一個用於雜湊表的下標,兩個用於驗證。這兩個驗證雜湊替代了實際檔名。
當然了,這樣仍然會出現2個不同的檔名雜湊到3個同樣的雜湊。但是這種情況發生的概率平均是:1:18889465931478580854784,這個概率對於任何人來說應該都是足夠小的。現在再回到資料結構上,Blizzard使用的雜湊表沒有使用連結串列,而採用順延的方式來解決問題,看看這個演算法:

2.3.4 函式四

lpszString為要在hash表中查詢的字串;lpTable 為儲存字串hash值的hash表;nTableSize 為hash表的長度:

int GetHashTablePos( char *lpszString, MPQHASHTABLE *lpTable, int nTableSize )
{
    const int  HASH_OFFSET = 0, HASH_A = 1, HASH_B = 2;
  
    int  nHash = HashString( lpszString, HASH_OFFSET );
    int  nHashA = HashString( lpszString, HASH_A );
    int  nHashB = HashString( lpszString, HASH_B );
    int  nHashStart = nHash % nTableSize;
    int  nHashPos = nHashStart;
  
    while ( lpTable[nHashPos].bExists )
   {
     /*如果僅僅是判斷在該表中時候存在這個字串,就比較這兩個hash值就可以了,不用對
     *結構體中的字串進行比較。這樣會加快執行的速度?減少hash表佔用的空間?這種
      *方法一般應用在什麼場合?*/
        if (   lpTable[nHashPos].nHashA == nHashA
        &&  lpTable[nHashPos].nHashB == nHashB )
       {
            return nHashPos;
       }
       else
       {
            nHashPos = (nHashPos + 1) % nTableSize;
       }
  
        if (nHashPos == nHashStart)
              break;
    }
     return -1;
}

上述程式解釋:

  1. 計算出字串的三個雜湊值(一個用來確定位置,另外兩個用來校驗)
  2. 察看雜湊表中的這個位置
  3. 雜湊表中這個位置為空嗎?如果為空,則肯定該字串不存在,返回-1。
  4. 如果存在,則檢查其他兩個雜湊值是否也匹配,如果匹配,則表示找到了該字串,返回其Hash值。
  5. 移到下一個位置,如果已經移到了表的末尾,則反繞到表的開始位置起繼續查詢
  6. 看看是不是又回到了原來的位置,如果是,則返回沒找到
  7. 回到3

2.3.5 補充1

一個簡單的hash函式:

/*key為一個字串,nTableLength為雜湊表的長度
*該函式得到的hash值分佈比較均勻*/
unsigned long getHashIndex( const char *key, int nTableLength )
{
    unsigned long nHash = 0;
    
    while (*key)
    {
        nHash = (nHash<<5) + nHash + *key++;
    }
         
    return ( nHash % nTableLength );
}

2.3.6 補充2

一個完整測試程式:
雜湊表的陣列是定長的,如果太大,則浪費,如果太小,體現不出效率。合適的陣列大小是雜湊表的效能的關鍵。雜湊表的尺寸最好是一個質數。當然,根據不同的資料量,會有不同的雜湊表的大小。對於資料量時多時少的應用,最好的設計是使用動態可變尺寸的雜湊表,那麼如果你發現雜湊表尺寸太小了,比如其中的元素是雜湊表尺寸的2倍時,我們就需要擴大雜湊表尺寸,一般是擴大一倍。
下面是雜湊表尺寸大小的可能取值:

  17,            37,          79,        163,          331,
  673,           1361,        2729,       5471,         10949,
  21911,          43853,      87719,      175447,      350899,
  701819,         1403641,    2807303,     5614657,     11229331,
  22458671,       44917381,    89834777,    179669557,   359339171,
  718678369,      1437356741,  2147483647

以下為該程式的完整原始碼,已在linux下測試通過:

#include <stdio.h> 
#include <ctype.h>     //多謝citylove指正。 
//crytTable[]裡面儲存的是HashString函式裡面將會用到的一些資料,在prepareCryptTable 
//函式裡面初始化 
unsigned long cryptTable[0x500]; 
   
//以下的函式生成一個長度為0x500(合10進位制數:1280)的cryptTable[0x500] 
void prepareCryptTable() 
{  
    unsigned long seed = 0x00100001, index1 = 0, index2 = 0, i; 
   
    for( index1 = 0; index1 < 0x100; index1++ ) 
    {  
        for( index2 = index1, i = 0; i < 5; i++, index2 += 0x100 ) 
        {  
            unsigned long temp1, temp2; 
   
            seed = (seed * 125 + 3) % 0x2AAAAB; 
            temp1 = (seed & 0xFFFF) << 0x10; 
   
            seed = (seed * 125 + 3) % 0x2AAAAB; 
            temp2 = (seed & 0xFFFF); 
   
            cryptTable[index2] = ( temp1 | temp2 );  
       }  
   }  
} 
   
//以下函式計算lpszFileName 字串的hash值,其中dwHashType 為hash的型別, 
//在下面GetHashTablePos函式裡面呼叫本函式,其可以取的值為0、1、2;該函式 
//返回lpszFileName 字串的hash值; 
unsigned long HashString( char *lpszFileName, unsigned long dwHashType ) 
{  
    unsigned char *key  = (unsigned char *)lpszFileName; 
unsigned long seed1 = 0x7FED7FED; 
unsigned long seed2 = 0xEEEEEEEE; 
    int ch; 
   
    while( *key != 0 ) 
    {  
        ch = toupper(*key++); 
   
        seed1 = cryptTable[(dwHashType << 8) + ch] ^ (seed1 + seed2); 
        seed2 = ch + seed1 + seed2 + (seed2 << 5) + 3;  
    } 
    return seed1;  
} 
   
//在main中測試argv[1]的三個hash值: 
//./hash  "arr/units.dat" 
//./hash  "unit/neutral/acritter.grp" 
int main( int argc, char **argv ) 
{ 
    unsigned long ulHashValue; 
    int i = 0; 
   
    if ( argc != 2 ) 
    { 
        printf("please input two arguments/n"); 
        return -1; 
    } 
   
     /*初始化陣列:crytTable[0x500]*/ 
     prepareCryptTable(); 
   
     /*列印陣列crytTable[0x500]裡面的值*/ 
     for ( ; i < 0x500; i++ ) 
     { 
         if ( i % 10 == 0 ) 
         { 
             printf("/n"); 
         } 
   
         printf("%-12X", cryptTable[i] ); 
     } 
   
     ulHashValue = HashString( argv[1], 0 ); 
     printf("/n----%X ----/n", ulHashValue ); 
   
     ulHashValue = HashString( argv[1], 1 ); 
     printf("----%X ----/n", ulHashValue ); 
   
     ulHashValue = HashString( argv[1], 2 ); 
     printf("----%X ----/n", ulHashValue ); 
   
     return 0; 
}