資料流基本問題--獨立元素計數（一）

阿新 • • 發佈：2019-02-15

下面我們討論如何計算獨立元素數目。

一、問題定義

如果一個數據流 $\sigma = \left \{ a_1,a_2\cdots,a_m \right \}$ ，其中m為資料流的大小， $a_i\in\left \{ 1,2\cdots,n \right \}$ 。我們可以定義每個元素

出現的次數為 $\mathbf{f}=\left ( f_1,f_2\cdots,f_n \right )$ ，其中 $f_i$ 為第i個元素出現的次數。假設 $d=\left | \left \{ j:f_j>0 \right \} \right |$ ，容易得知d為在

資料流中出現的不同元素數目，也就是獨立元素數目。

對於這個問題，可以在記憶體中使用高效的搜尋結構（比如平衡BST等）保留當前已經出現的元素。但是如果元素數目實在太

多以致搜尋結構無法訪問記憶體時，我們可以使用更多的機器或者將資料結構的一部分放入到外存中。

上述做法是計算流中獨立元素的精確解。如果我們僅僅需要對獨立元素數目進行估計，則方法要簡單的多，空間消耗也很少

（一般確定性演算法空間複雜度需要 $\Omega(n)$ ）。

二、具體演算法

通過將流中元素雜湊到一個足夠長的位串，就可以實現獨立元素數目的估計。這裡要求雜湊函式屬於2-universal hash family。要求位串必須要足夠長，以致雜湊函式的可能結果數目要遠大於流中獨立元素個數。如果在流中看到的不同元素越多，我們看到的不同雜湊值也就越多。對於一個元素雜湊後的結果p，我們定義zero(p)為p的二進位制表示尾部中連續0的個數。也就是如下定義：

$zero(p)=max\left \{ i:2^{i} \; divides \; p \right \}$

如果我們記錄流中所有元素zero( $a_i$ )的最大值設為z，從直觀上理解，如果流中獨立元素數目越多，那麼z的取值就會越大。演算法的基本思想就是如果我們從d個不同的元素中希望有一個使得 $zero \left (\left h(j \right ) \right )\geq log \,d$ 。舉例來說，如果流中有8個獨立元素，我們希望其中有一個滿足雜湊後的結果尾部有3個0。所以zero(h(j))的最大值（也就是下面演算法中的z）理論上應該是log d的一個較好的近似。

基於上述想法，演算法的步驟如下：

int get_distinct_elements_num(vector<int>&nums) {
	z=0;
	//h(i)為雜湊函式
	//zero(i)是求i二進位制表示尾部中連續0的數目
	for(int i=0;i<nums.size();i++){
		if(zero(h(nums[j]))>z){
			z=zero(h(nums[j]));
		}
	}
	return 2<<(z+1.0/2);
}

三、演算法的評估

假設 $X_{r,j}$ 為一個取值0或1的量，表示 $zero \left (\left h(j \right ) \right )\geq r$ ， $Y_r=\sum_{j:f_j>0}X_{r,j}$ ，t表示第二節中演算法執行結束後z的取值。很明顯，我們有：

$Y_r> 0\Leftrightarrow t\geq r$ 或者 $Y_r= 0\Leftrightarrow t \leq r-1$

因為h(j)是取值是隨機的，所以：

$E\left [ X_{r,j} \right ]=Pr\left [ zeros(h(j))\geqslant r \right ]=Pr\left [ z^r\;divides \;h(j) \right ]=\frac{1}{2^r}$

由於 $X_{r,j}$ 之間獨立，我們得到 $Y_r$ 的期望和方差：

$E\left [ Y_r \right ]=\sum_{j:f_j>0}E\left [ X_{r,j} \right ]=\frac{d}{2^r}$

$Var\left [ Y_r \right ]=\sum_{j:f_j>0}Var\left [ X_{r,j} \right ] \leq \sum_{j:f_j>0}E\left [ X_{r,j}^{2} \right ] =\sum_{j:f_j>0}E\left [ X_{r,j} \right ] = \frac{d}{2^r}$ (Var(x)表示x的方差，該步驟利用了 $Var[x]=E[x^2]-(E[x])^2$ )

分別由馬爾科夫不等式和切比雪夫不等式可得：

$Pr\left [ Y_r>0 \right ]=Pr\left [ Y_r\geq 1 \right ] \leq \frac{E\left [ Y_r \right ]}{1} = \frac{d}{2^r}$

$Pr\left [ Y_r=0 \right ]=Pr\left [ |Y_r-E[Y_r]]|\geq \frac{d}{2^r} \right ]\leq \frac{Var[Y_r]}{(\frac{d}{2^r})^2}\leq \frac{2^r}{d}$

設 $\hat{d}$ 是演算法對d的估計，有 $\hat{d}=2^{t+\frac{1}{2}}$ 。設a是滿足 $2^{a+\frac{1}{2}}\geq 3d$ 的整數，b是滿足 $2^{b+\frac{1}{2}}\leq \frac{d}{3}$ 的最大整數。則有

$Pr\left [ \hat{d}\geq 3d \right ] =Pr\left [ t\geq a \right ] =Pr\left [ Y_a > 0 \right ] \leq \frac{d}{2^a}\leq \frac{\sqrt{2}}{3}$

$Pr\left [ \hat{d}\leq \frac{d}{3} \right ] =Pr\left [ t\leq b \right ] =Pr\left [ Y_{b+1} = 0 \right ] \leq \frac{2^{b+1}}{d} \leq \frac{\sqrt{2}}{3}$

通過上面兩個式子，可以發現， $\hat{d}$ 只是d的同階的估計，並不是一個任意好的估計。另外， $\hat{d}$ 過大或者過小的概率並不是很大，只有 $\frac{\sqrt{2}}{3}\approx 47 \%$ 。

四、Median trick

所謂median trick就是我們執行這個演算法k次，取k次結果的中位數即可。通過切爾諾夫界可以證明，median trick可以使 $\hat{d}_{median}$

過大或者過小的概率降低到足夠低。直觀上理解，取中位數的話就不會受到偶然極大值或者極小值的影響，從而是一個更好的估計。在後續的部落格也會多次提及median trick。

五、附相關不等式。

1.馬爾科夫不等式

$Pr\left [ |x|\geq a \right ]\leq \frac{E\left [ |x| \right ]}{a}$

2.切比雪夫不等式

$Pr\left [ |x-E\left [ x \right ]| \right ]\leq \frac{D[x]}{\epsilon ^2}$

資料流基本問題--獨立元素計數（一）

資料流基本問題--獨立元素計數（一）

視頻流GPU解碼的實現（一）-基本概念

java基礎之----基本資料型別和引用資料型別的引數傳遞過程（一）

Qt5--實時資料動態顯示--使用QCustomPlot庫（一）基本應用

基本控件使用（一）

selenium + python自動化測試unittest框架學習（三）webdriver元素定位（一）

工作流Activiti5.13學習筆記（一）

java中的棧Stack的基本使用和應用（一）

Linux基本命令及其使用（一）

vuex 基本入門和使用（一）

problem-solving-with-algorithms-and-data-structure-usingpython(使用python解決算法和數據結構) -- 基本數據結構（一）

Python網路資料爬取----網路爬蟲基礎（一）

資料結構與演算法——單鏈表（一）

資料結構與演算法——線性表（一）

資料分析系列教程之pandas（一）

python資料分析新手入門課程學習——（一）資料獲取（來源：慕課網）

Python資料分析numpy庫方法簡介（一）

劍指offer：資料流中的中位數（java）

極客講堂之資料結構與演算法之美（一）：複雜度分析（上）

大資料的架構及配置技術（一）

資料流基本問題--獨立元素計數（一）

相關推薦