三路劃分快速排序--針對重複關鍵字的改進
阿新 • • 發佈:2018-12-27
基本原理
快速排序演算法是一種分治排序演算法,影響其效能的因素有劃分元素的選擇、小的子檔案的處理、重複關鍵字等,本文論述針對重複關鍵字的改進實現。首先來回顧下一般的演算法實現,其流程如下:
a. 選擇一個劃分元素,這個元素在劃分後將在最終的位置上,通常是選擇最右端元素作為劃分點。
b. 從左端開始掃描,直到找到大於劃分元素的元素;同時從右端開始掃描,直到找到小於劃分元素的元素,再交換使掃描停止的這兩個元素。
c. 繼續步驟b,直到左指標不小於右指標,最後再交換左指標元素和劃分元素。
d. 在左指標左側和右側區間(區間不包括左指標元素)重複以上過程,直至元素個數為0或1。
在劃分的過程中,位於左指標左側的元素都比劃分元素小,右側的元素都比劃分元素大,如下圖所示 由上述可見,一般的演算法實現針對大量重複關鍵字的輸入情況,其效能表現很差,例如如果一個檔案完全由相等的值(只有一個值)組成,那麼它就不需要再進行任何排序,但前面的演算法依然劃分直至得到小的子檔案,無論檔案有多大。針對這一情況,可以作實質性的改進,從而避免處理元素相同的子區間,提高效率。改進的演算法實現主要問題在於如何處理與劃分元素相等的情況,這裡的基本思想是將區間劃分為三個部分,左部分小於劃分元素,中間部分等於劃分元素,右部分大於劃分元素,然後再在左右兩部分進行子處理,具體的流程如下:
a'. 選擇左端元素、中間元素和右端元素的中值作為劃分元素,也就是三者取中劃分,這樣能有效避免劃分區間的最壞情況。
b'. 從左端開始掃描,直到找到不小於 劃分元素的元素;同時從右端開始掃描,直到找到不大於劃分元素的元素,再交換使掃描停止的這兩個元素。如果左指標元素等於劃分元素,那麼與左端的元素交換,並遞增左端位置(初始化為檔案最左位置);如果右指標元素等於劃分元素,那麼與右端元素交換,並遞減右端位置(初始化為檔案最右位置)。
c'. 繼續步驟b',直到左指標不小於右指標。
d'. 交換最左端區間和左指標左側區間(不包括左指標元素),這一過程會遞減左端位置;交換最右端區間和左指標右側區間(包括左指標元素),這一過程會遞增右端位置。
e'. 在最左端和最右端區間重複以上過程,直至元素個數為0或1。
在劃分的過程中,與劃分元素相等的元素分佈在最左端和最右端,如下圖所示
在劃分完成後處理子檔案前,需要對調區間,如步驟d'所述,結果如下圖所示
程式碼實現
上面所有圖中的v代表劃分元素,最後列出程式碼清單,函式quick_sort有兩個版本,一個是支援operator < 的預設實現,另一個是支援帶謂詞的自定義比較實現。在其中用到了實現三者取中值的__median函式,對應的也有兩個版本實現,如下所示 1template<class _RandIt> 2void quick_sort(_RandIt _first,_RandIt _last)
3{
4 typedef typename std::iterator_traits<_RandIt>::value_type _ValType;
5 if (!(_first<_last-1)) return;
6
7 _RandIt i = _first,j = _last-1,p = i,q = j,k;
8 _ValType pivot = __median(*_first,*(_last-1),*(_first+(_last-_first)/2));
9
10 while(true)
11 {
12 while(*i < pivot) ++i;
13 while(pivot <*j) --j;
14 if (!(i < j)) break;
15 std::iter_swap(i,j);
16
17 if (!(*i < pivot) &&!(pivot <*i))
18 std::iter_swap(p++,i);
19 if (!(*j < pivot) &&!(pivot <*j))
20 std::iter_swap(q--,j);
21 ++i; --j;
22 }23
24 j = i -1;
25 for(k = _first;k<p;--j,++k) std::iter_swap(k,j);
26 for(k = _last-1;k>q;++i,--k) std::iter_swap(k,i);
27
28 quick_sort(_first,j+1);
29 quick_sort(i,_last);
30}31
32template<class _RandIt,class _Compare>33void quick_sort(_RandIt _first,_RandIt _last,_Compare _comp)
34{
35 typedef typename std::iterator_traits<_RandIt>::value_type _ValType;
36 if (!(_first < _last -1)) return;
37
38 _RandIt i = _first,j = _last-1,p = i, q = j, k;
39 _ValType pivot = __median(*_first,*(_last-1),*(_first+(_last-_first)/2),_comp);
40
41 while(true)
42 {
43 while(_comp(*i,pivot)) ++i;
44 while(_comp(pivot,*j)) --j;
45 if (!(i < j)) break;
46 std::iter_swap(i,j);
47
48 if (!_comp(*i,pivot) &&!_comp(pivot,*i))
49 std::iter_swap(p++,i);
50 if (!_comp(*j,pivot) &&!_comp(pivot,*j))
51 std::iter_swap(q--,j);
52 ++i; --j;
53 }54 j = i -1;
55 for(k = _first;k < p;++k,--j)
56 std::iter_swap(k,j);
57 for(k = _last -1;k > q;--k,++i)
58 std::iter_swap(k,i);
59
60 quick_sort(_first,j+1,_comp);
61 quick_sort(i,_last,_comp);
62} 從上面實現可看出,與一般的實現相比,劃分過程多了兩個if及for迴圈,if測試用來將找到的重複元素放在左右兩端;for迴圈用來交換區間,將重複元素再放在中間,這額外的工作量只與找到的重複關鍵字的個數成線性,因此,即使在沒有重複關鍵字的情況下,它也執行得很好,平均時間複雜度為O(NlgN)。 posted on 2012-05-19 14:48 春秋十二月 閱讀(1889) 評論(1) 編輯 收藏 引用 所屬分類: Algorithm
快速排序演算法是一種分治排序演算法,影響其效能的因素有劃分元素的選擇、小的子檔案的處理、重複關鍵字等,本文論述針對重複關鍵字的改進實現。首先來回顧下一般的演算法實現,其流程如下:
a. 選擇一個劃分元素,這個元素在劃分後將在最終的位置上,通常是選擇最右端元素作為劃分點。
b. 從左端開始掃描,直到找到大於劃分元素的元素;同時從右端開始掃描,直到找到小於劃分元素的元素,再交換使掃描停止的這兩個元素。
c. 繼續步驟b,直到左指標不小於右指標,最後再交換左指標元素和劃分元素。
d. 在左指標左側和右側區間(區間不包括左指標元素)重複以上過程,直至元素個數為0或1。
在劃分的過程中,位於左指標左側的元素都比劃分元素小,右側的元素都比劃分元素大,如下圖所示
a'. 選擇左端元素、中間元素和右端元素的中值作為劃分元素,也就是三者取中劃分,這樣能有效避免劃分區間的最壞情況。
b'. 從左端開始掃描,直到找到不小於
c'. 繼續步驟b',直到左指標不小於右指標。
d'. 交換最左端區間和左指標左側區間(不包括左指標元素),這一過程會遞減左端位置;交換最右端區間和左指標右側區間(包括左指標元素),這一過程會遞增右端位置。
e'. 在最左端和最右端區間重複以上過程,直至元素個數為0或1。
在劃分的過程中,與劃分元素相等的元素分佈在最左端和最右端,如下圖所示
程式碼實現
上面所有圖中的v代表劃分元素,最後列出程式碼清單,函式quick_sort有兩個版本,一個是支援operator < 的預設實現,另一個是支援帶謂詞的自定義比較實現。在其中用到了實現三者取中值的__median函式,對應的也有兩個版本實現,如下所示 1template<class _RandIt> 2void quick_sort(_RandIt _first,_RandIt _last)
3{
4 typedef typename std::iterator_traits<_RandIt>::value_type _ValType;
5 if (!(_first<_last-1)) return;
6
7 _RandIt i = _first,j = _last-1,p = i,q = j,k;
8 _ValType pivot = __median(*_first,*(_last-1),*(_first+(_last-_first)/2));
9
10 while(true)
11 {
12 while(*i < pivot) ++i;
13 while(pivot <*j) --j;
14 if (!(i < j)) break;
15 std::iter_swap(i,j);
16
17 if (!(*i < pivot) &&!(pivot <*i))
18 std::iter_swap(p++,i);
19 if (!(*j < pivot) &&!(pivot <*j))
20 std::iter_swap(q--,j);
21 ++i; --j;
22 }23
24 j = i -1;
25 for(k = _first;k<p;--j,++k) std::iter_swap(k,j);
26 for(k = _last-1;k>q;++i,--k) std::iter_swap(k,i);
27
28 quick_sort(_first,j+1);
29 quick_sort(i,_last);
30}31
32template<class _RandIt,class _Compare>33void quick_sort(_RandIt _first,_RandIt _last,_Compare _comp)
34{
35 typedef typename std::iterator_traits<_RandIt>::value_type _ValType;
36 if (!(_first < _last -1)) return;
37
38 _RandIt i = _first,j = _last-1,p = i, q = j, k;
39 _ValType pivot = __median(*_first,*(_last-1),*(_first+(_last-_first)/2),_comp);
40
41 while(true)
42 {
43 while(_comp(*i,pivot)) ++i;
44 while(_comp(pivot,*j)) --j;
45 if (!(i < j)) break;
46 std::iter_swap(i,j);
47
48 if (!_comp(*i,pivot) &&!_comp(pivot,*i))
49 std::iter_swap(p++,i);
50 if (!_comp(*j,pivot) &&!_comp(pivot,*j))
51 std::iter_swap(q--,j);
52 ++i; --j;
53 }54 j = i -1;
55 for(k = _first;k < p;++k,--j)
56 std::iter_swap(k,j);
57 for(k = _last -1;k > q;--k,++i)
58 std::iter_swap(k,i);
59
60 quick_sort(_first,j+1,_comp);
61 quick_sort(i,_last,_comp);
62} 從上面實現可看出,與一般的實現相比,劃分過程多了兩個if及for迴圈,if測試用來將找到的重複元素放在左右兩端;for迴圈用來交換區間,將重複元素再放在中間,這額外的工作量只與找到的重複關鍵字的個數成線性,因此,即使在沒有重複關鍵字的情況下,它也執行得很好,平均時間複雜度為O(NlgN)。 posted on 2012-05-19 14:48 春秋十二月 閱讀(1889) 評論(1) 編輯 收藏 引用 所屬分類: Algorithm