leetcode 兩個排序陣列的中位數(Median of Two Sorted Arrays)
解決方案
方法:遞迴法
為了解決這個問題,我們需要理解“中位數的作用是什麼”。在統計中,中位數被用來:
將一個集合劃分為兩個長度相等的子集,其中一個子集中的元素總是大於另一個子集中的元素。
如果理解了中位數的劃分作用,我們就很接近答案了。
首先,讓我們在任一位置 ii 將 \text{A}A 劃分成兩個部分:
left_A | right_A A[0], A[1], ..., A[i-1] | A[i], A[i+1], ..., A[m-1]
由於 \text{A}A 中有 mm 個元素, 所以我們有 m+1m+1 種劃分的方法(i = 0 \sim mi=0∼m)。
我們知道:
\text{len}(\text{left\_A}) = i, \text{len}(\text{right\_A}) = m - ilen(left_A)=i,len(right_A)=m−i.
注意:當 i = 0i=0 時,\text{left\_A}left_A 為空集, 而當 i = mi=m 時, \text{right\_A}right_A 為空集。
採用同樣的方式,我們在任一位置 jj 將 \text{B}B 劃分成兩個部分:
left_B | right_B B[0], B[1], ..., B[j-1] | B[j], B[j+1], ..., B[n-1]
將 \text{left\_A}left_A 和 \text{left\_B}left_B 放入一個集合,並將 \text{right\_A}right_A 和 \text{right\_B}right_B 放入另一個集合。 再把這兩個新的集合分別命名為 \text{left\_part}left_part 和 \text{right\_part}right_part:
left_part | right_part A[0], A[1], ..., A[i-1] | A[i], A[i+1], ..., A[m-1] B[0], B[1], ..., B[j-1] | B[j], B[j+1], ..., B[n-1]
如果我們可以確認:
- \text{len}(\text{left\_part}) = \text{len}(\text{right\_part})len(left_part)=len(right_part)
- \max(\text{left\_part}) \leq \min(\text{right\_part})max(left_part)≤min(right_part)
那麼,我們已經將 \{\text{A}, \text{B}\}{A,B} 中的所有元素劃分為相同長度的兩個部分,且其中一部分中的元素總是大於另一部分中的元素。那麼:
\text{median} = \frac{\text{max}(\text{left}\_\text{part}) + \text{min}(\text{right}\_\text{part})}{2}median=2max(left_part)+min(right_part)
要確保這兩個條件,我們只需要保證:
i + j = m - i + n - ji+j=m−i+n−j(或:m - i + n - j + 1m−i+n−j+1) 如果 n \geq mn≥m,只需要使 \ i = 0 \sim m,\ j = \frac{m + n + 1}{2} - i \\ i=0∼m, j=2m+n+1−i
\text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i] 以及 \text{A}[i-1] \leq \text{B}[j]A[i−1]≤B[j]
ps.1 為了簡化分析,我假設 \text{A}[i-1], \text{B}[j-1], \text{A}[i], \text{B}[j]A[i−1],B[j−1],A[i],B[j] 總是存在,哪怕出現 i=0i=0,i=mi=m,j=0j=0,或是 j=nj=n 這樣的臨界條件。 我將在最後討論如何處理這些臨界值。
ps.2 為什麼 n \geq mn≥m?由於0 \leq i \leq m0≤i≤m 且 j = \frac{m + n + 1}{2} - ij=2m+n+1−i,我必須確保 jj 不是負數。如果 n < mn<m,那麼 jj 將可能是負數,而這會造成錯誤的答案。
所以,我們需要做的是:
在 [0,m][0,m] 中搜索並找到目標物件 ii,以使:
\qquad \text{B}[j-1] \leq \text{A}[i]\B[j−1]≤A[i] 且 \ \text{A}[i-1] \leq \text{B}[j],\ A[i−1]≤B[j], 其中 j = \frac{m + n + 1}{2} - ij=2m+n+1−i
接著,我們可以按照以下步驟來進行二叉樹搜尋:
- 設 \text{imin} = 0imin=0,\text{imax} = mimax=m, 然後開始在 [\text{imin}, \text{imax}][imin,imax] 中進行搜尋。
- 令 i = \frac{\text{imin} + \text{imax}}{2}i=2imin+imax, j = \frac{m + n + 1}{2} - ij=2m+n+1−i
-
現在我們有 \text{len}(\text{left}\_\text{part})=\text{len}(\text{right}\_\text{part})len(left_part)=len(right_part)。 而且我們只會遇到三種情況:
-
\text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i] 且 \text{A}[i-1] \leq \text{B}[j]A[i−1]≤B[j]: 這意味著我們找到了目標物件 ii,所以可以停止搜尋。
-
\text{B}[j-1] > \text{A}[i]B[j−1]>A[i]: 這意味著 \text{A}[i]A[i] 太小,我們必須調整 ii 以使 \text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i]。 我們可以增大 ii 嗎? 是的,因為當 ii 被增大的時候,jj 就會被減小。 因此 \text{B}[j-1]B[j−1] 會減小,而 \text{A}[i]A[i] 會增大,那麼 \text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i] 就可能被滿足。 我們可以減小 ii 嗎? 不行,因為當 ii 被減小的時候,jj 就會被增大。 因此 \text{B}[j-1]B[j−1] 會增大,而 \text{A}[i]A[i] 會減小,那麼 \text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i] 就可能不滿足。 所以我們必須增大 ii。也就是說,我們必須將搜尋範圍調整為 [i+1, \text{imax}][i+1,imax]。 因此,設 \text{imin} = i+1imin=i+1,並轉到步驟 2。
-
\text{A}[i-1] > \text{B}[j]A[i−1]>B[j]: 這意味著 \text{A}[i-1]A[i−1] 太大,我們必須減小 ii 以使 \text{A}[i-1]\leq \text{B}[j]A[i−1]≤B[j]。 也就是說,我們必須將搜尋範圍調整為 [\text{imin}, i-1][imin,i−1]。 因此,設 \text{imax} = i-1imax=i−1,並轉到步驟 2。
-
當找到目標物件 ii 時,中位數為:
\max(\text{A}[i-1], \text{B}[j-1]), \max(A[i−1],B[j−1]), 當 m + nm+n 為奇數時
\frac{\max(\text{A}[i-1], \text{B}[j-1]) + \min(\text{A}[i], \text{B}[j])}{2}, \2max(A[i−1],B[j−1])+min(A[i],B[j]), 當 m + nm+n 為偶數時
現在,讓我們來考慮這些臨界值 i=0,i=m,j=0,j=ni=0,i=m,j=0,j=n,此時 \text{A}[i-1],\text{B}[j-1],\text{A}[i],\text{B}[j]A[i−1],B[j−1],A[i],B[j] 可能不存在。 其實這種情況比你想象的要容易得多。
我們需要做的是確保 \text{max}(\text{left}\_\text{part}) \leq \text{min}(\text{right}\_\text{part})max(left_part)≤min(right_part)。 因此,如果 ii 和 jj 不是臨界值(這意味著 \text{A}[i-1], \text{B}[j-1],\text{A}[i],\text{B}[j]A[i−1],B[j−1],A[i],B[j] 全部存在), 那麼我們必須同時檢查 \text{B}[j-1] \leq \text{A}[i]B[j−1]≤A[i] 以及 \text{A}[i-1] \leq \text{B}[j]A[i−1]≤B[j] 是否成立。 但是如果 \text{A}[i-1],\text{B}[j-1],\text{A}[i],\text{B}[j]A[i−1],B[j−1],A[i],B[j] 中部分不存在,那麼我們只需要檢查這兩個條件中的一個(或不需要檢查)。 舉個例子,如果 i = 0i=0,那麼 \text{A}[i-1]A[i−1] 不存在,我們就不需要檢查 \text{A}[i-1] \leq \text{B}[j]A[i−1]≤B[j] 是否成立。 所以,我們需要做的是:
在 [0,m][0,m] 中搜索並找到目標物件 ii,以使:
(j = 0(j=0 or i = mi=m or \text{B}[j-1] \leq \text{A}[i])B[j−1]≤A[i]) 或是 (i = 0(i=0 or j = nj=n or \text{A}[i-1] \leq \text{B}[j]),A[i−1]≤B[j]), 其中 j = \frac{m + n + 1}{2} - ij=2m+n+1−i
在迴圈搜尋中,我們只會遇到三種情況:
- (j = 0(j=0 or i = mi=m or \text{B}[j-1] \leq \text{A}[i])B[j−1]≤A[i]) 或是 (i = 0(i=0 or j = nj=n or \text{A}[i-1] \leq \text{B}[j])A[i−1]≤B[j]) 這意味著 ii 是完美的,我們可以停止搜尋。
- j > 0j>0 and i < mi<m and \text{B}[j - 1] > \text{A}[i]B[j−1]>A[i] 這意味著 ii 太小,我們必須增大它。
- i > 0i>0 and j < nj<n and \text{A}[i - 1] > \text{B}[j]A[i−1]>B[j] 這意味著 ii 太大,我們必須減小它。
感謝 @Quentin.chen 指出: i < m \implies j > 0i<m⟹j>0 以及 i > 0 \implies j < ni>0⟹j<n 始終成立,這是因為:
m \leq n,\ i < m \implies j = \frac{m+n+1}{2} - i > \frac{m+n+1}{2} - m \geq \frac{2m+1}{2} - m \geq 0m≤n, i<m⟹j=2m+n+1−i>2m+n+1−m≥22m+1−m≥0
m \leq n,\ i > 0 \implies j = \frac{m+n+1}{2} - i < \frac{m+n+1}{2} \leq \frac{2n+1}{2} \leq nm≤n, i>0⟹j=2m+n+1−i<2m+n+1≤22n+1≤n
所以,在情況 2 和 3中,我們不需要檢查 j > 0j>0 或是 j < nj<n 是否成立。
class Solution {
public double findMedianSortedArrays(int[] A, int[] B) {
int m = A.length;
int n = B.length;
if (m > n) { // to ensure m<=n
int[] temp = A; A = B; B = temp;
int tmp = m; m = n; n = tmp;
}
int iMin = 0, iMax = m, halfLen = (m + n + 1) / 2;
while (iMin <= iMax) {
int i = (iMin + iMax) / 2;
int j = halfLen - i;
if (i < iMax && B[j-1] > A[i]){
iMin = i + 1; // i is too small
}
else if (i > iMin && A[i-1] > B[j]) {
iMax = i - 1; // i is too big
}
else { // i is perfect
int maxLeft = 0;
if (i == 0) { maxLeft = B[j-1]; }
else if (j == 0) { maxLeft = A[i-1]; }
else { maxLeft = Math.max(A[i-1], B[j-1]); }
if ( (m + n) % 2 == 1 ) { return maxLeft; }
int minRight = 0;
if (i == m) { minRight = B[j]; }
else if (j == n) { minRight = A[i]; }
else { minRight = Math.min(B[j], A[i]); }
return (maxLeft + minRight) / 2.0;
}
}
return 0.0;
}
}