1. 程式人生 > >Differential Privacy差分隱私

Differential Privacy差分隱私

這個是我上課的時候講differential privacy的ppt的內容,有英文和中文。內容是基於幾篇論文和網上的資料,下載地址在文章結尾。

Differential Privacy presentation materials

- A hospital has a database of patient records, eachrecord containing a binary value indicating whether or not the patient has someform of cancer.

- We want to know the total number of patients withcancers?

        Easy! A summation over these binary values

- But how about if weknow anyone must on the list?

   Or anyone must be the end of the list?

   If Jack hascancer?   S(3)-S(2)

Differential privacy addresses thequestion of, given the total number of patients with cancer, whether or not anadversary can learn if a particular individual has cancer.

一家醫院有一些關於癌症病人的統計資料,如果我們想知道總的患癌症的人數,很簡單,做has cancer 列的求和就行了。問題是如果我們知道某個人一定在這個表內,或者我們知道某個人在這個表的最後一行,這是我們再做求和的操作。例如我們知道Jack在表格的最後一行,那麼Jack有沒有患癌症,我們可以通過S(3)-S(2)就可以知道。這時候隱私就會洩露。Differential privacy就是解決這種問題,怎麼可以給出總體的,我們需要的資訊,但是不洩露個體的隱私資料?

Differential Privacy

“Let us do the sum function in peace”

-What we want is a protocol that has aprobability distribution over outputs

such that if person I changed their inputfrom xi to any other allowed xi’, the relative probabilities of any output donot change by much

-So, for instance, can pretend your inputwas any other allowed value you want.

簡單來說就是Differentialprivacy提供一種關於輸出的概率分佈的機制或者是協議,可以讓我們對資料表進行一定程度的修改,例如把上表的Jack換成其他人,或者改變他患癌症列的屬性,但是對總體的輸出不會發生大變化。所以就可以假裝你的資料表可能包含所有可能的資料,讓攻擊者不知道任何關於個人的資訊,從而達到隱私保護的作用。

Differential privacy aims to provide means to maximize the accuracy of queries fromstatistical databases while minimizing the chances of identifying its records.

The definition was first proposed in CynthiaDwork’s ICALP paper.

[1] C. Dwork. Differential privacy. InICALP, pages 1–12, 2006.

[2] C. Dwork, F. McSherry, K. Nissim, andA. Smith. Calibrating noise to sensitivity in private data analysis. InProceedings of the Third conference on Theory of Cryptography, TCC’06, pages265–284, 2006.

[3] C. Dwork , Differential privacy: Asurvey of results, Theory and Applications of Models of Computation, (2008),pp. 1–19.

Previous efforts

-be “broken”in the sense there are well known attacks

       k-anonymity

-differential privacy has rigorous definition

       successful

Differential privacy 的目標是最大化查詢準確率並且最小化隱私洩露的風險。它最早被提出來的文章是2006年Cynthia在ICALP的文章,然後下面是他另外一些比較經典的文章。其實之前也有關於這方面的研究,但是在某些攻擊下隱私還是很容易洩露,就是k-匿名。但是因為Differential privacy 嚴格的定義,在很多情況下,他都取得了不錯的效果。

讓A是從D^N到Y的一個隨機化演算法。D1,D2是兩個資料庫,他們只有一行記錄不同,我們說這兩種資料庫叫database neighbors。隨機化演算法(randomized algorithm),是這樣一種演算法,在演算法中使用了隨機函式,且隨機函式的返回值直接或者間接的影響了演算法的執行流程或執行結果。就是將演算法的某一步或某幾步置於運氣的控制之下,即該演算法在執行的過程中的某一步或某幾步涉及一個隨機決策,或者說其中的一個決策依賴於某種隨機事件。

定義1,epsilon大於0,定義一個隨機化演算法A,如果它是epsilon-differentially privacy的話,它滿足下面的公式。這時候A的輸出的概率分佈與拋硬幣的概率分佈近似。



下面我們來看一個例子。假設Alice跟Bob在玩一個遊戲。A 抽取不同的數,不同數目有一共有m個。Alice從中任意抽取任何一個。D下降n表示之前n-1抽取到的結果。Dn,m表示知道前n-1個結果後的第n個結果為數目m。Alice只給Bob前n-1個結果,要求Bob猜出第n個結果。BOB會根據下面公式給出他的猜測。就是計算每一種結果的概率,然後選出其中最大的j。但是如果A滿足epslion differential privacy,即下面這條公式,每種結果的概率相差很小,Bob就會很難猜測到結果,效果跟隨機估算差不多。

Pure semantic privacy

Can not learn information about anindividual by the output of some algorithm.

Unfortunately, external information makessuch a privacy definition impossible .

Differential privacy  aims for more relaxed definitions of privacythan pure semantic privacy. It states that an adversary with access to theoutput of an algorithm will learn roughly the same information whether or not asingle user’s data was included or not.

本來在語義上的隱私應該是對於演算法的任何輸出,我們並不能得到更多關於個體的資訊,這時隱私得到了保護。但是因為攻擊者擁有背景知識等原因,這種隱私很難得到實現。Different Privacy 定義了一種更放鬆的隱私保護。它表明了攻擊者都會得到相似的輸出,無論資料表裡包不包含任意個體的資訊。


        上面我們已經討論了differentialprivacy可以保證什麼,現在我們想如何實現它。其中最常用到的就是拉普拉斯的技巧。F是一個D到R的對映。這個符號表示的是曼哈頓距離,也叫L1-距離。定義GSf為函式f的敏感度。就是兩個neighboring database D1,D2的曼哈頓距離。拉普拉斯機制就是讓隨機化演算法等於函式f加上一個服從拉普拉斯分佈的噪聲。拉普拉斯分佈服從0均值,概率密度為這種形式。那麼這樣,A會滿足epsilon differential privacy.



證明:第二個等號是因為相互獨立,所以可以把乘法變成加法。而第一個不等式因為三角形不等式性質轉化而來的,而第二個不能等式是由GSF的定義而來。所以A滿足epsilon differential privacy.



Sequential composibility 就是如果我們知道k個演算法他們都是獨立的differentialprivacy,我們希望把它組合起來形成一個新的滿足differential privacy的演算法。假設我們現在有k個演算法,分別是A1-AK,可以證明他們組合起來的新的演算法也是滿足k epsilon differential privacy。這個性質在迭代演算法裡特別有效,因為如果每一次迭代的演算法都滿足differential privacy,那麼可以證明整個過程都滿足differential privacy。

Parallel composibility就是假設我們把資料庫分為K個子資料集,同理有k個演算法他們都是獨立的epsilon differential privacy,那麼演算法的資料集也會滿足epsilondifferential privacy


很多人問要PPT,現在分享一下:http://pan.baidu.com/s/1bn4oOOJ