機器學習--蓄水池抽樣與加權抽樣演算法

阿新 • • 發佈：2018-12-20

學習一下蓄水池抽樣以及加權抽樣演算法

1.蓄水池抽樣

如果資料總量是有限的，隨機抽樣k個值，可以直接利用隨機數產生器來產生。如果數量總量是不斷增加的，記憶體並不能完全存放所有資料，此時若隨機產生k個值可以採用蓄水池抽樣演算法。

1.從一個數據流中隨機取出一個數，要求每個數被取到的概率相等

第一個數以概率1取值，第二個數以1/2概率替換，第三個數以1/3概率替換。。。。直到第n個數

第一個數被取到的概率第一個數取到並且後面沒有被替換掉

1*1/2*2/3*3/4.......(n-1)/n=1/n

第k個數，最後被取到的概率第k個數被取到，並且後面沒有被替換掉

1/k * k/k+1 * k+1/k+2 *.... n-1/n = 1/n

即每個數被取到的概率是相等的

python程式設計實現：

def random(num=[]):
    import numpy as np
    i = 2
    r = num[1]
    while i<len(num):
        #print (i)
        #print (np.random.randint(1, i))		
        if np.random.randint(1, i)==i:
            r = num[i]
        i = i + 1
        #print (i)	    
    print (r)

randint(a,b)可以產生一個[a,b]的隨機數，下式成立的概率應該為1/i

np.random.randint(1, i)==i

後來測試發現randint(a,b)不會產生等於b的隨機數，修改右端點為i+1 這樣np.random.randint(1, i+1)即可產生1--i的隨機數，等於1的概率即為1/i

def random(num=[]):
    import numpy as np
    i = 2
    r = num[1]
    while i<len(num):
        #print (i)
        #print (np.random.randint(1, i+1))		
        if np.random.randint(1, i+1)==1:
            r = num[i]
        i = i + 1
        #print (i)	    
    print (r)

後來查了一下，發現自己搞錯了，randint(a,b)可以產生一個[a,b)的隨機數,右邊界取不到

2.從一個數據流中隨機選取k個數，要求每個被選取到的概率相等

蓄水池取樣演算法：

先將k個數放入到蓄水池中，後面的每一個數(>k)都已k/k+1的概率換入蓄水池，換入時隨機選取蓄水池的一個數換出

第一個數被選中的概率是第一個數被選中*（後面的數沒有被選中+後面的數被選中但是沒有替換掉1）

1 * （1/k+1 * k-1/k + k/k+1）*(1/k+2 * k-1/k + k+1/k+2) *...... *(1/n*k-1/k +n-1/n)= k/n;

對於資料流不斷增加，資料中某個值 $\alpha$ ，被選中的概率是：

當資料小於 $\alpha$ 肯定不會選中，因為資料中沒有該值 $\alpha$ ；

當資料流等於 $\alpha$ 時其被選中的概率為k/ $\alpha$ ;

當資料流大於 $\alpha$ 時，要保證後面的每個數不會替換掉 $\alpha$ 。

程式碼如下：

def randomk(k, num=[]):
    import numpy as np
	#座標索引不會取到右端點
    r = num[1:k+1]
    i = k+1
    while i<len(num):
        j = np.random.randint(1, i+1)
        if j <= k:
            r[j] = num[i]
        i = i + 1
    print (r)

j = np.random.randint(1, i+1) 產生[1,i]的隨機數 j<=k的概率為k/i,以該概率將蓄水池中j位置換為num[i]元素即可。

以上實現了蓄水池抽樣，特別是資料來源不確定時，下面是加權抽樣，即每個資料點都有一個權重，可以簡單分為資料來源有限以及無限的情況。

2.加權抽樣

演算法1：資料集有限：

wn被選中的概率為：wn/(w1 + w2 + ··· + wn) wn-1被選中的概率為：wn-1/(w1 + w2 + ··· + wn-1)

每一個標籤依次選中的可能性為：

演算法2：資料集有限

給定資料以及相應權重，利用權重以及隨機數來給每一個數據打分

最終挑選出分值最大的k個數作為最終結果返回。

演算法3：資料集有限

利用指數分佈：

為每一個標籤生成一個指數分佈 $\lambda$ 為標籤權重，然後每個分佈隨機產生一個數值，挑選隨機數值最大的k個標籤返回即可。

演算法4：資料集無限

當資料集無限時，不能採用演算法1來計算所有標籤的分值，可以採用蓄水池抽樣演算法來實現。

為每一個樣本生成一個分數：

如果不足 k 個，直接儲存

如果已經有 k 個，如果 ki 比已有的結果裡最小那個分數大，就替換

下面依次給出演算法1和2的正確性

然後給出演算法4的正確性

演算法2和演算法1等效性的證明：

Ui為(0,1)之間隨機數 wi為資料i的權重，Xi為資料i的分數 $\alpha$ 為[0,1]之間的一個實數，現在證明以上命題。

定義分佈函式：

概率密度函式為：

n=1時有：

n=2時有：

假設n=k時成立：

當n=k+1時：

參考文獻：

大神論文：《Weighted random sampling with a reservoir》

機器學習--蓄水池抽樣與加權抽樣演算法

學習一下蓄水池抽樣以及加權抽樣演算法 1.蓄水池抽樣如果資料總量是有限的，隨機抽樣k個值，可以直接利用隨機數產生器來產生。如果數量總量是不斷增加的，記憶體並不能完全存放所有資料，此時若隨機產生k個值可以採用蓄水池抽樣演算法。 1.從一個數據流中隨機取出一個數，要求每個

機器學習之Bagging 與隨機森林演算法

在整合學習裡面，有兩種流派，一個是 boosting 流派，它的特點是對於各個學習器之間有著相互依賴的關係（比如說在某一次演算法結束後，分類錯誤的樣本會增大比例，以引起下一次的訓練時候的關注度），另一種是bagging 流派，它的特點是各個學習器之間沒有任何的

機器學習的分類與主要演算法對比

重要引用：Andrew Ng Courera Machine Learning；從機器學習談起；關於機器學習的討論；機器學習常見演算法分類彙總；LeNet Homepage；pluskid svm 　　首先讓我們瞻仰一下當今機器學習領域的執牛耳者：　　這幅圖上的三人是當今機器學習界的

機器學習（七）決策樹演算法研究與實現

前言從決策樹這三個字中我們既可以看出來它的主要用途幫助決策某一類問題，樹是輔助我們來決策用的，如下圖一個簡單的判斷不同階段人年齡的圖： &

吳恩達-斯坦福CS229機器學習課程資料與演算法的Python實現

學習stanford cs229 manchine learning課程已經有三個月左右，雖然說網友們說這門課相比於Coursera（吳恩達老師的網課機構）中的機器學習有更多的數學要求和公式的推導，本著想總體瞭解機器學習的念頭，開始了機器學習的自學過程。這

機器學習之樸素貝葉斯演算法與程式碼實現

樸素貝葉斯演算法與程式碼實現演算法原理樸素貝葉斯是經典的機器學習演算法之一，也是為數不多的基於概率論的分類演算法。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。該演算法的優點在於簡單易懂、學習效率高、在某些領

我與機器學習 - [Today is Knn] - [K-近鄰演算法]

優點：精度高，對異常值不敏感，無資料輸入假定缺點：計算複雜度高，空間複雜度高適用資料範圍：數值型和標稱型 k近鄰，也就是KNN演算法，他的工作原理是：一個有監督的學習，有一個帶有標籤的訓練集，訓練，當我們輸入沒有標籤的的新資料後，將新資料的每個特徵與訓練集中的每個特徵比較，然後演算法

《機器學習實戰》AdaBoost方法的演算法原理與程式實現

一、引言提升(boosting)方法是一種常用的統計學習方法，應用廣泛且有效，在分類問題中，它通過改變訓練樣本的權重，學習多個分類器，並將這些分類器進行線性組合，提高分類的效能。對於分類問題，給定一個訓練樣本集，比較粗糙的分類規則（弱分類器），要比精確分類規則（強分類器）容易

《機器學習實戰》決策樹(ID3演算法)的分析與實現

決策樹是一個預測模型；他代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物件的值。決策樹僅有單一輸出，若欲有複數輸出，可以建立獨立的決策樹以處理不同輸出。資料探勘中決策樹是一

機器學習--DIY筆記與感悟--②決策樹（1）

lis ... 編寫代碼需要總結初始化對數三分 xtend 在完成了K臨近之後，今天我們開始下一個算法--->決策樹算法。一、決策樹基礎知識如果突然問你"有一個陌生人叫X,Ta今天需要帶傘嗎?", 你一定會覺得這個問題就像告訴你"兩千米外有一個超市,

機器學習(七) PCA與梯度上升法 (下)

實例此外 tps 新的 get nsf self. -s 冗余五、高維數據映射為低維數據換一個坐標軸。在新的坐標軸裏面表示原來高維的數據。低維反向映射為高維數據 PCA.py import numpy as np class

機器學習之微積分與概率論入門1

公式連續 === 等於產品 c2c ges cto mar 這兩門學科作為機器學習的必備科目！一、微積分1夾逼定理通俗的講：A≤B≤C當求極限時，存在A=C,則說明B也等於A和C案例1：案例2： 2 兩個重要極限 3 導數通俗的講就是曲線的斜率二階導數是斜率變化快慢

機器學習002-LDA與KNDA

http 矩陣學習參考函數滿足 n) 坐標軸 ref 參考：LDA kernel LDA kernel LDA 用到了散度(scatter)的概念，目標是使樣本點在高維空間中的投影滿足：類內散度最小，類間散度最大。即： \[ J(W^\phi)=argmax_{(W

小白python學習——機器學習篇——樸素貝葉斯演算法

一.大概思路： 1.找出資料集合，所有一個單詞的集合，不重複，各個文件。 2.把每個文件換成0,1模型，出現的是1，就可以得到矩陣長度一樣的各個文件。 3.計算出3個概率，一是侮辱性的文件概率，二是侮辱性文件中各個詞出現的概率，三是非侮辱性文件中各個詞出現的概率。 4.二、三計算方法

機器學習實戰（十）Apriori演算法（關聯分析）

目錄 0. 前言 1. Apriori 演算法尋找頻繁項集 2. 從頻繁項集中挖掘關聯規則 3. 實戰案例 3.1. apriori演算法發現頻繁項集和關聯規則學習完機器學習實戰的Apriori，簡單的做個筆記。文中部分描述屬於

吳恩達老師機器學習筆記K-means聚類演算法（二）

運用K-means聚類演算法進行影象壓縮趁熱打鐵，修改之前的演算法來做第二個練習—影象壓縮原始圖片如下：程式碼如下： X =imread('bird.png'); % 讀取圖片 X =im2double(X); % unit8轉成double型別 [m,n,z]=size

吳恩達老師機器學習筆記K-means聚類演算法（一）

今天接著學習聚類演算法以後堅決要八點之前起床學習！不要浪費每一個早晨。 K-means聚類演算法聚類過程如下：原理基本就是先從樣本中隨機選擇聚類中心，計算樣本到聚類中心的距離，選擇樣本最近的中心作為該樣本的類別。最後某一類樣本的座標平均值作為新聚類中心的座標，如此往復。原

吳恩達機器學習 - 神經網路的反向傳播演算法吳恩達機器學習 - 神經網路的反向傳播演算法

原吳恩達機器學習 - 神經網路的反向傳播演算法 2018年06月21日 20:59:35 離殤灬孤狼閱讀數：373

機器學習現狀以及目前機器學習競賽的主流框架或演算法

Kaggle 上的競爭非常激烈（有些比賽有數千名參賽者，並提供數百萬美元的獎金），而且涵蓋了各種型別的機器學習問題，所以它提供了一種現實方法來評判哪種方法有效、哪種方法無效。那麼哪種演算法能夠可靠

機器學習-4（k-進鄰演算法簡介中）

既然要介紹該演算法，我們就簡單介紹一下歐式距離這個應該是我們初中就學過的了，2點之間的距離就是它的多維空間裡面每個維度的座標的差的平方之和，再開方公式就是 OK，我們現在按照分類的基本原則，把所有的樣本集都放進我們的座標系裡面來，有多少特徵，我們就建立幾維的空間座標系。

機器學習--蓄水池抽樣與加權抽樣演算法

1.蓄水池抽樣

2.加權抽樣

相關推薦