1. 程式人生 > >differential privacy 差分隱私摔門 (三)

differential privacy 差分隱私摔門 (三)

差分隱私
從Terry Gross身高的例子可知,產生的附加資訊即使某個人不在資料庫中,也可能造成這個人的隱私洩露。為了躲開這個問題,我們從嚴格的隱私保護轉向了一個相對寬泛的隱私保護:任何給定的資訊都在一個很小的乘法因子中,就比如這個人是否在資料集中。結果,在參與資料集的過程中,一個人名義上的風險增加了,隱瞞或者欺騙只會獲得名義上的收穫。注意,隱私洩露仍然可能發生,但是我們保證不會出現個人的資料,同樣使用者的動作也不會使的他的資料不被紕漏。 定義2.一個隨機函式K滿足  e-differential privacy,如果對於所有頂多只相差一個元素的資料集D1,D2,和所有的S屬於Range(K)有: Pr[K(D1)屬於S]<=exp(e)*Pr[K(D2)屬於S]           (1) 一個滿足這種定義的機制解決了參與者擔心的可能會洩露自己個人資訊的問題:即使將某個參與者的資料從資料集中移除,輸出結果也不會相差很大。例如,在某個保險公司給Terry Gross 投保前,不論她是否在資料集(保險公司用來分析的資料集)中都不會影響她被投保的概率。 這個定義也可以擴充套件到組隱私。若有c個人認為他們的統計資料會洩露資訊(就算單個人的資料紕漏不會洩露資訊)。通過這種定義,我們可以將可能性擴大至exp(c*e),對於c很小的情況下是可行的。注意,我們的目標是披露關於大型組的聚合資訊,因此我們應該期望隱私界限隨著團隊規模的增加而瓦解。 滿足差分隱私
我們現在描述一個具體的滿足了e-differential privacy的隱私互動機制(在文獻[12]中提到的)。這種機制向答案a=f(X)中新增合適的隨機噪音,其中f是查詢函式,X是資料庫;因此查詢函式一次可以操作整個資料庫。可以簡單的舉例為“統計資料庫中滿足某些條件的行的數量”或再複雜點比如“計算每一列的中位數,如果第一列的中位數超過第二列的中位數,那麼就在集合S中輸出一個直方圖,否則輸出另一個集合T的直方圖“。 注意那個上面提到的那個複雜一點的查詢第一部分輸出一個值向量,第二部分的答案是根據第一部分中的結果返回兩個結果向量中的一個。儘管有點複雜,它僅僅是資料庫的一個單獨的查詢函式。我們處理在定理4中描述的查詢函式。這種查詢結果依賴於前一個查詢結果的問題在定理5中處理。例如,假設一個攻擊者首先提交一個查詢“計算每一列的中位數”,並且得到了帶有噪聲的中位數。以M為第一列釋出的中位數(所以M是真實的中位數加上噪音)。攻擊者可能隨後又提交了一個問題:“如果M超過了第一列真實的中位數(噪音是正的)那麼就...否則...”。第二個查詢不僅僅是資料庫的一個函式,也是與第一個查詢隱私保護機制所新增噪聲相關的一個函式;因此,他要隨著機制的行為而適應。
指數分佈噪聲和L1敏感度 我們將通過單個參與者的參與給查詢函式帶來的最大變化來確定所新增噪聲的等級;我們將這稱為函式的敏感度(很不幸,敏感度這個詞在隱私保護領域中被重複使用了--敏感度分析) 定義3.對於f:D->Rd,f的L1敏感度是 ∆f = max ||f(D1)−f(D2)||(在D1,D2範圍內)          (2) 其中D1,D2相差最多一個元素 對於很多f來說,∆f可能非常小。比如簡單的計數查詢(“表中有多少行滿足性質P?”)的查詢敏感度就小於等於1.這種技術在 ∆f非常小即需要新增的噪聲非常小的時候非常高效。注意敏感度只是查詢函式的一個性質,與資料庫無關。 隱私保護機制定義了Kf,即對於一個查詢函式f,計算出f(X)並且參照方差σ(定理4)正比於指數分佈在每一部分中新增噪音,通過密度函式描述如下
Pr[Kf(X)=a]∝exp(-||f(X)-a||/σ)              (3) 這個分佈有獨立的座標,每一個都是服從指數分佈的隨機變數。這種機制的實現只是簡單的向f(X)中的每個座標新增一定比例的服從指數分佈的噪音。 定理4.(以上機制滿足(∆f/σ)-differential privacy) 證明。從(3)開始,我們利用指數中的三角不等式,得出對於所有可能的輸出r Pr[Kf(D1)=r]<=Pr[Kf(D2)=r]*exp(||f(D1)-f[D2]||/σ)              (4) 公式中的第二項被exp(∆f/σ)確定,通過定義∆f。因此公式(1)只適合單個數據集S={a},並且有一個邊界。 定理4說明了 ∆f, σ,和差分隱私之間的關係。要想滿足e-differential 隱私保護,首先要滿足 σ>= e/∆f。 依照所有複雜查詢敏感度函式所確定的噪聲非常重要,這種重要性可以在直方圖查詢中體現出來,在直方圖中,資料元素被分為k組,比如各個地區鞋子販賣數量的頻率統計組,查詢的結果是在每個組中的數(一個長度為k的陣列)。簡單的認為有k個查詢,每個查詢的敏感度為1,所以為了滿足e-differential privacy,使用了k個理論4中的指數機制,每一個的方差為k/e。但是,對於任意只相差一個元素的資料庫D1,D2, ||f(D1)−f(D2)|| = 1,只有一個組會改變,而且只改變1.因此,我們可以只應用一次理論4,在d=k,並且 ∆f = 1的情況下,只需要方差為1/e即可,而不是d/e。 靈活的攻擊者:首先由一系列查詢函式fp構成的查詢策略F,fp(X)i是在p1,p2.。。pi-1的查詢結果確定的前提下的第i個結果。如果一開始的i-1個p和p`相等,則fp(X)i=fp`(X)i。我們定義查詢策略F的敏感度是其中函式敏感度最大的那個,即∆F = supρ ∆fρ。 定理5。對於任何的查詢策略F={fp:D->Rd},機制KF滿足(∆F/σ)-differential privacy。 證明。對於每一個p屬於(R+)d,條件概率說明 Pr[KF(X)=p]=(累乘符號,i<=d)Pr[KF(X)i=pi|p1,p2,,,,pi-1]      (5) 若p1,p2,,,pi-1固定,並且KF(X)i的分佈只是簡單的均值為fp(X)i的隨機變數,並且在每一部分中的噪聲都服從方差為σ2的指數分佈。因此, Pr[KF(X)=p]∝(累加符號,i<=d)exp(-||fp(X)i-pi||/σ])            (6) =exp(-||fp(X)-p||/σ)                     (7) 在定理4中,三角不等式滿足(∆F/σ)-differential privacy。 隨機的攻擊者也是同樣處理,即通過拋硬幣的方式來決定勝利者的策略。 致謝(省略) 參考文獻 [1] N. R. Adam and J. C. Wortmann, Security-Control Methods for Statistical Databases: A Comparative Study, ACM Computing Surveys 21(4): 515-556 (1989). [2] R. Agrawal and R. Srikant. Privacy-preserving data mining. In Proc. ACM SIGMOD International Conference on Management of Data, pp. 439–450, 2000. [3] A. Blum, C. Dwork, F. McSherry, and K. Nissim. Practical privacy: The SuLQ framework. In Proceedings of the 24th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, pages 128–138, June 2005. [4] S. Chawla, C. Dwork, F. McSherry, A. Smith, and H. Wee. Toward privacy in public databases. In Proceedings of the 2nd Theory of Cryptography Conference, pages 363–385, 2005. [5] S. Chawla, C. Dwork, F. McSherry, and K. Talwar. On the utility of privacypreserving histograms. In Proceedings of the 21st Conference on Uncertainty in Artificial Intelligence, 2005. [6] T. Dalenius, Towards a methodology for statistical disclosure control. Statistik Tidskrift 15, pp. 429–222, 1977. [7] D. E. Denning, Secure statistical databases with random sample queries, ACM Transactions on Database Systems, 5(3):291–315, September 1980. [8] I. Dinur and K. Nissim. Revealing information while preserving privacy. In Proceedings of the 22nd ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, pages 202–210, 2003. [9] D. Dobkin, A.K. Jones, and R.J. Lipton, Secure databases: Protection against user influence. ACM Trans. Database Syst. 4(1), pp. 97–106, 1979. [10] Y. Dodis, L. Reyzin and A. Smith, Fuzzy extractors: How to generate strong keys from biometrics and other noisy data. In Proceedings of EUROCRYPT 2004, pp. 523–540, 2004. [11] Y. Dodis and A. Smith, Correcting Errors Without Leaking Partial Information, In Proceedings of the 37th ACM Symposium on Theory of Computing, pp. 654–663, 2005. [12] C. Dwork, F. McSherry, K. Nissim, and A. Smith. Calibrating noise to sensitivity in private data analysis. In Proceedings of the 3rd Theory of Cryptography Conference, pages 265–284, 2006. [13] C. Dwork and K. Nissim. Privacy-preserving datamining on vertically partitioned databases. In Advances in Cryptology: Proceedings of Crypto, pages 528–544, 2004. [14] A. Evfimievski, J. Gehrke, and R. Srikant. Limiting privacy breaches in privacy preserving data mining. In Proceedings of the 22nd ACM SIGMOD-SIGACTSIGART Symposium on Principles of Database Systems, pages 211–222, June 2003. [15] S. Goldwasser and S. Micali, Probabilistic encryption. Journal of Computer and System Sciences 28, pp. 270–299, 1984; prelminary version appeared in Proceedings 14th Annual ACM Symposium on Theory of Computing, 1982. [16] N. Nisan and D. Zuckerman. Randomness is linear in space. J. Comput. Syst. Sci., 52(1):43–52, 1996. [17] Ronen Shaltiel. Recent developments in explicit constructions of extractors. Bulletin of the EATCS, 77:67–95, 2002. [18] Sweeney, L., Weaving technology and policy together to maintain confidentiality. J Law Med Ethics, 1997. 25(2-3): p. 98-110. [19] L. Sweeney, Achieving k-anonymity privacy protection using generalization and suppression. International Journal on Uncertainty, Fuzziness and Knowledgebased Systems, 10 (5), 2002; 571-588.

相關推薦

differential privacy 隱私

差分隱私 從Terry Gross身高的例子可知,產生的附加資訊即使某個人不在資料庫中,也可能造成這個人的隱私洩露。為了躲開這個問題,我們從嚴格的隱私保護轉向了一個相對寬泛的隱私保護:任何給定的資訊都在一個很小的乘法因子中,就比如這個人是否在資料集中。結果,在參與資料集的過

differential privacy 隱私入門 (二)

這種“不可能的結果”需要注意資料的實用性,畢竟如果一個機制只輸出空字串或者僅僅是噪聲,顯然也是保護了隱私。首先提到一些現有的機制,比如直方圖釋出或者K-Anonymity技術[19],很明顯,對於一個有用的機制來說,他的輸出不應該被使用者預測到;在隨機化的機制裡也是如此,但是其中的不可預測性不是來自於隨機機制

Differential Privacy隱私

這個是我上課的時候講differential privacy的ppt的內容,有英文和中文。內容是基於幾篇論文和網上的資料,下載地址在文章結尾。 Differential Privacy presentation materials - A hospital has a

java、python--隱私拉普拉斯分佈Laplace實現

最近在研究差分隱私,先用java實現了拉普拉斯分佈,做了個Hive互動式介面。後來又用python畫圖,準備做個非互動式資料釋出。 差分隱私的原理我先簡單介紹一下,Apple 用它來實現資訊保安。這裡舉一個例子來幫助理解,考慮一個醫療資料場景:        上圖顯示了

部署標準交換機和布式交換機

部署標準交換機和分布式交換機實驗目標:部署標準交換機和分布式交換機實驗要求:標準交換機的配置:分別在兩臺esxi主機中添加6塊物理網卡,橋接到vmnet1。分別在兩臺esxi主機配置標準交換機,將vSwitch0交換機添加一個物理網卡,實現負載均衡和容錯。分別在兩臺esxi主機中,將vSwitch0交換機添加

隱私I

差分隱私綜述_李效光 面向資料釋出和分析的差分隱私保護 張嘯劍 差分隱私保護及其應用 熊平 提出 隱私保護整體分成9個部分,包括隱私資訊產生、隱私感知、隱私保護、隱私釋出、私資訊儲存, 隱私交換, 隱私分析, 隱私銷燬, 隱私接收者。主要研究方向在在隱私保護, 隱私釋出/儲存/交換,

隱私若干基本知識點介紹

                 為解決當前資訊越來越發達的社會所帶來的使用者隱私洩露問題,本人所研究的差分隱私模型是一種被廣泛認可的嚴格的隱私保護模型。它通過對資料新增干擾噪聲的方式保護所釋出資料中

C++隱私的指數機制的一種實現方法

list and span 機制 namespace stdio.h int class ++ #include <iostream> #include<stdio.h> #include<stdlib.h> #include<m

BZOJ4999 This Problem Is Too Simple!樹上+dfs序+樹狀陣列

  對每個權值分別考慮。則只有單點加路徑求和的操作。樹上差分轉化為求到根的路徑和,子樹加即可。再差分後bit即可。注意樹上差分中根的父親是0,已經忘了是第幾次因為這個掛了。 #include<iostream> #include<cstdio> #include<cma

隱私保護及應用簡略瞭解

本人數學一直超差,差分隱私保護又是基於概率統計數學知識的,看的真是頭大。。。但還是把所看的東西串起來記錄一下吧。如有看到不正確的地方,還望指正!! 一:差分隱私基本概念 這是差分隱私保護的最基本概念了,首先得理解資料集D和,成為兄弟資料集。兩個資料集中的記錄最多相差一

資料分享中的隱私保護 論文筆記

1  K-匿名 :泛化後的每一條記錄都要至少與k - 1條 其他記錄完全一致 2 一致性攻擊: 所有K條記錄有相同的屬性,從而能使得攻擊者推測出某個人的此屬性 3 l- 多樣:在k- 匿名的基礎上,l

MindSpore:基於本地隱私的 Bandit 演算法

摘要:本文將先簡單介紹Bandit 問題和本地差分隱私的相關背景,然後介紹基於本地差分隱私的 Bandit 演算法,最後通過一個簡單的電影推薦場景來驗證 LDP LinUCB 演算法。 Bandit問題是強化學習中一類重要的問題,由於它定義簡潔且有大量的理論分析,因此被廣泛應用於新聞推薦,醫學試驗等實際場景中

星際之

輸出 detail return 技術 gin ace problem pau ans 星際之門(一) 時間限制:3000 ms | 內存限制:65535 KB 難度:3 描寫敘述 公元3000年。子虛帝國統領著N個星系,

disconf實踐基於XML的布式配置文件管理,自動reload

blog exce conf redis 信息 exceptio res pan ram 上一篇介紹了基於xml的非自動reload的分布式配置文件管理,這一篇介紹自動reload的方式(基於disconf實踐二)。 1. 修改RedisConfig.java 1 pa

布式緩存技術redis學習系列——redis高級應用主從、事務與鎖、持久化

master ica not ood www working can 出了 owin 上文《詳細講解redis數據結構(內存模型)以及常用命令》介紹了redis的數據類型以及常用命令,本文我們來學習下redis的一些高級特性。 回到頂部 安全性設置 設置客戶端操作秘密

布式系統的那些事兒 - 系統與系統之間的調用

數據格式 轉換 處理 分布 互調 圖片處理 動作 人性 並且 系統與系統之間的調用通俗來講,分為本地同一臺服務器上的服務相互調用與遠程服務調用,這個都可以稱之為RPC通信。淺白點講,客戶訪問服務器A,此時服務器要完成某個動作必須訪問服務器B,服務器A與B互相通信,相互調用,

布式文件存儲FastDFSFastDFS配置

ubuntu .cn image markdown rtu sta name tls box http://blog.csdn.net/xingjiarong/article/details/50559768 在上一節中我們一起搭建了一個單節點的FastDFS系統

布式系統的那些事兒 - MQ時代的通信

任務 會有 服務端 分布 ive 結果 團隊 並不會 短信 之前在講RPC通信的各種好處,特別好用,但是RPC並不是萬能的,也並不是適用於各種場景的,因為他是同步的;現如今很多場景下的調用都是異步的,系統A調用B後,並不需要知道B的結果,而且對B的結果無所謂,甚至你B掛了都

Mysql 數據庫優化——區和表【個人經驗】

incr 返回 for 16px 使用 tree 主鍵 ref 相同   引:MyISAM存儲引擎的表在數據庫中,每一個表都被存放為三個以表名命名的物理文件。     1、首先肯定會有任何存儲引擎都不可缺少的存放表結構定義信息的.frm文件,     2、另外還有.MYD和

淺談布式事務

back 微服務 目的 light ber message values 及其 環境 現今互聯網界,分布式系統和微服務架構盛行。一個簡單操作,在服務端非常可能是由多個服務和數據庫實例協同完成的。在一致性要求較高的場景下,多個獨立操作之間的一致性問題顯得格外棘手。基