differential privacy 差分隱私摔門（三）

阿新 • • 發佈：2019-01-18

差分隱私

從Terry Gross身高的例子可知，產生的附加資訊即使某個人不在資料庫中，也可能造成這個人的隱私洩露。為了躲開這個問題，我們從嚴格的隱私保護轉向了一個相對寬泛的隱私保護：任何給定的資訊都在一個很小的乘法因子中，就比如這個人是否在資料集中。結果，在參與資料集的過程中，一個人名義上的風險增加了，隱瞞或者欺騙只會獲得名義上的收穫。注意，隱私洩露仍然可能發生，但是我們保證不會出現個人的資料，同樣使用者的動作也不會使的他的資料不被紕漏。定義2.一個隨機函式K滿足 e-diﬀerential privacy，如果對於所有頂多只相差一個元素的資料集D1，D2，和所有的S屬於Range（K）有： Pr[K(D1)屬於S]<=exp(e)*Pr[K(D2)屬於S] （1）一個滿足這種定義的機制解決了參與者擔心的可能會洩露自己個人資訊的問題：即使將某個參與者的資料從資料集中移除，輸出結果也不會相差很大。例如，在某個保險公司給Terry Gross 投保前，不論她是否在資料集（保險公司用來分析的資料集）中都不會影響她被投保的概率。這個定義也可以擴充套件到組隱私。若有c個人認為他們的統計資料會洩露資訊（就算單個人的資料紕漏不會洩露資訊）。通過這種定義，我們可以將可能性擴大至exp（c*e），對於c很小的情況下是可行的。注意，我們的目標是披露關於大型組的聚合資訊，因此我們應該期望隱私界限隨著團隊規模的增加而瓦解。滿足差分隱私

我們現在描述一個具體的滿足了e-differential privacy的隱私互動機制（在文獻[12]中提到的）。這種機制向答案a=f（X）中新增合適的隨機噪音，其中f是查詢函式，X是資料庫；因此查詢函式一次可以操作整個資料庫。可以簡單的舉例為“統計資料庫中滿足某些條件的行的數量”或再複雜點比如“計算每一列的中位數，如果第一列的中位數超過第二列的中位數，那麼就在集合S中輸出一個直方圖，否則輸出另一個集合T的直方圖“。注意那個上面提到的那個複雜一點的查詢第一部分輸出一個值向量，第二部分的答案是根據第一部分中的結果返回兩個結果向量中的一個。儘管有點複雜，它僅僅是資料庫的一個單獨的查詢函式。我們處理在定理4中描述的查詢函式。這種查詢結果依賴於前一個查詢結果的問題在定理5中處理。例如，假設一個攻擊者首先提交一個查詢“計算每一列的中位數”，並且得到了帶有噪聲的中位數。以M為第一列釋出的中位數（所以M是真實的中位數加上噪音）。攻擊者可能隨後又提交了一個問題：“如果M超過了第一列真實的中位數（噪音是正的）那麼就...否則...”。第二個查詢不僅僅是資料庫的一個函式，也是與第一個查詢隱私保護機制所新增噪聲相關的一個函式；因此，他要隨著機制的行為而適應。

指數分佈噪聲和L1敏感度我們將通過單個參與者的參與給查詢函式帶來的最大變化來確定所新增噪聲的等級；我們將這稱為函式的敏感度（很不幸，敏感度這個詞在隱私保護領域中被重複使用了--敏感度分析）定義3.對於f：D->Rd，f的L1敏感度是 ∆f = max ||f(D1)−f(D2)||（在D1，D2範圍內）（2）其中D1，D2相差最多一個元素對於很多f來說，∆f可能非常小。比如簡單的計數查詢（“表中有多少行滿足性質P？”）的查詢敏感度就小於等於1.這種技術在 ∆f非常小即需要新增的噪聲非常小的時候非常高效。注意敏感度只是查詢函式的一個性質，與資料庫無關。隱私保護機制定義了Kf，即對於一個查詢函式f，計算出f（X）並且參照方差σ（定理4）正比於指數分佈在每一部分中新增噪音，通過密度函式描述如下

Pr[Kf(X)=a]∝exp(-||f(X)-a||/σ) （3）這個分佈有獨立的座標，每一個都是服從指數分佈的隨機變數。這種機制的實現只是簡單的向f（X）中的每個座標新增一定比例的服從指數分佈的噪音。定理4.（以上機制滿足(∆f/σ)-diﬀerential privacy）證明。從（3）開始，我們利用指數中的三角不等式，得出對於所有可能的輸出r Pr[Kf(D1)=r]<=Pr[Kf(D2)=r]*exp(||f(D1)-f[D2]||/σ) (4) 公式中的第二項被exp(∆f/σ)確定，通過定義∆f。因此公式（1）只適合單個數據集S={a}，並且有一個邊界。定理4說明了 ∆f， σ,和差分隱私之間的關係。要想滿足e-differential 隱私保護，首先要滿足 σ>= e/∆f。依照所有複雜查詢敏感度函式所確定的噪聲非常重要，這種重要性可以在直方圖查詢中體現出來，在直方圖中，資料元素被分為k組，比如各個地區鞋子販賣數量的頻率統計組，查詢的結果是在每個組中的數（一個長度為k的陣列）。簡單的認為有k個查詢，每個查詢的敏感度為1，所以為了滿足e-differential privacy，使用了k個理論4中的指數機制，每一個的方差為k/e。但是，對於任意只相差一個元素的資料庫D1,D2， ||f(D1)−f(D2)|| = 1，只有一個組會改變，而且只改變1.因此，我們可以只應用一次理論4，在d=k，並且 ∆f = 1的情況下，只需要方差為1/e即可，而不是d/e。靈活的攻擊者：首先由一系列查詢函式fp構成的查詢策略F，fp（X）i是在p1，p2.。。pi-1的查詢結果確定的前提下的第i個結果。如果一開始的i-1個p和p`相等，則fp（X）i=fp`（X）i。我們定義查詢策略F的敏感度是其中函式敏感度最大的那個，即∆F = supρ ∆fρ。定理5。對於任何的查詢策略F={fp：D->Rd}，機制KF滿足(∆F/σ)-diﬀerential privacy。證明。對於每一個p屬於（R+）d，條件概率說明 Pr[KF(X)=p]=(累乘符號，i<=d)Pr[KF(X)i=pi|p1,p2,,,,pi-1] (5) 若p1,p2,,,pi-1固定，並且KF（X）i的分佈只是簡單的均值為fp（X）i的隨機變數，並且在每一部分中的噪聲都服從方差為σ2的指數分佈。因此， Pr[KF(X)=p]∝（累加符號，i<=d）exp（-||fp（X）i-pi||/σ]）（6） =exp（-||fp（X）-p||/σ）（7）在定理4中，三角不等式滿足(∆F/σ)-diﬀerential privacy。隨機的攻擊者也是同樣處理，即通過拋硬幣的方式來決定勝利者的策略。致謝（省略）參考文獻 [1] N. R. Adam and J. C. Wortmann, Security-Control Methods for Statistical Databases: A Comparative Study, ACM Computing Surveys 21(4): 515-556 (1989). [2] R. Agrawal and R. Srikant. Privacy-preserving data mining. In Proc. ACM SIGMOD International Conference on Management of Data, pp. 439–450, 2000. [3] A. Blum, C. Dwork, F. McSherry, and K. Nissim. Practical privacy: The SuLQ framework. In Proceedings of the 24th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, pages 128–138, June 2005. [4] S. Chawla, C. Dwork, F. McSherry, A. Smith, and H. Wee. Toward privacy in public databases. In Proceedings of the 2nd Theory of Cryptography Conference, pages 363–385, 2005. [5] S. Chawla, C. Dwork, F. McSherry, and K. Talwar. On the utility of privacypreserving histograms. In Proceedings of the 21st Conference on Uncertainty in Artiﬁcial Intelligence, 2005. [6] T. Dalenius, Towards a methodology for statistical disclosure control. Statistik Tidskrift 15, pp. 429–222, 1977. [7] D. E. Denning, Secure statistical databases with random sample queries, ACM Transactions on Database Systems, 5(3):291–315, September 1980. [8] I. Dinur and K. Nissim. Revealing information while preserving privacy. In Proceedings of the 22nd ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, pages 202–210, 2003. [9] D. Dobkin, A.K. Jones, and R.J. Lipton, Secure databases: Protection against user inﬂuence. ACM Trans. Database Syst. 4(1), pp. 97–106, 1979. [10] Y. Dodis, L. Reyzin and A. Smith, Fuzzy extractors: How to generate strong keys from biometrics and other noisy data. In Proceedings of EUROCRYPT 2004, pp. 523–540, 2004. [11] Y. Dodis and A. Smith, Correcting Errors Without Leaking Partial Information, In Proceedings of the 37th ACM Symposium on Theory of Computing, pp. 654–663, 2005. [12] C. Dwork, F. McSherry, K. Nissim, and A. Smith. Calibrating noise to sensitivity in private data analysis. In Proceedings of the 3rd Theory of Cryptography Conference, pages 265–284, 2006. [13] C. Dwork and K. Nissim. Privacy-preserving datamining on vertically partitioned databases. In Advances in Cryptology: Proceedings of Crypto, pages 528–544, 2004. [14] A. Evﬁmievski, J. Gehrke, and R. Srikant. Limiting privacy breaches in privacy preserving data mining. In Proceedings of the 22nd ACM SIGMOD-SIGACTSIGART Symposium on Principles of Database Systems, pages 211–222, June 2003. [15] S. Goldwasser and S. Micali, Probabilistic encryption. Journal of Computer and System Sciences 28, pp. 270–299, 1984; prelminary version appeared in Proceedings 14th Annual ACM Symposium on Theory of Computing, 1982. [16] N. Nisan and D. Zuckerman. Randomness is linear in space. J. Comput. Syst. Sci., 52(1):43–52, 1996. [17] Ronen Shaltiel. Recent developments in explicit constructions of extractors. Bulletin of the EATCS, 77:67–95, 2002. [18] Sweeney, L., Weaving technology and policy together to maintain conﬁdentiality. J Law Med Ethics, 1997. 25(2-3): p. 98-110. [19] L. Sweeney, Achieving k-anonymity privacy protection using generalization and suppression. International Journal on Uncertainty, Fuzziness and Knowledgebased Systems, 10 (5), 2002; 571-588.

differential privacy 差分隱私摔門（三）

差分隱私

differential privacy 差分隱私摔門（三）

differential privacy 差分隱私入門 (二)

Differential Privacy差分隱私

java、python--差分隱私拉普拉斯分佈（Laplace）實現

部署標準交換機和分布式交換機（三）

差分隱私（I）

差分隱私若干基本知識點介紹（一）

C++差分隱私的指數機制的一種實現方法

BZOJ4999 This Problem Is Too Simple!（樹上差分+dfs序+樹狀陣列）

差分隱私保護及應用簡略瞭解

資料分享中的差分隱私保護論文筆記

MindSpore：基於本地差分隱私的 Bandit 演算法

星際之門（一）

disconf實踐（三）基於XML的分布式配置文件管理，自動reload

分布式緩存技術redis學習系列（三）——redis高級應用（主從、事務與鎖、持久化）

分布式系統的那些事兒（三） - 系統與系統之間的調用

（轉）分布式文件存儲FastDFS（三）FastDFS配置

分布式系統的那些事兒（三） - MQ時代的通信

Mysql 數據庫優化（三）——分區和分表【個人經驗】

淺談分布式事務（轉）

differential privacy 差分隱私摔門 （三）

差分隱私

相關推薦

differential privacy 差分隱私摔門（三）