【資料應用案例】關係資料的隱私保護
案例來源:@關會華 阿里技術
0. 背景:
1)關係資料描述的是實體與實體之間的聯絡,如人與人之間的交際關係、企業與企業之間的關聯交易關係等。通過關係資料可以生成一張大網,也成為網路資料或者圖資料
2)關係資料的研究包括子群識別、資訊傳播、欺詐識別等
3)但關係資料也存在著洩露使用者隱私的風險,即使使用者的屬性資料進行了隱私處理,關係資料也可能讓攻擊者定位到具體的使用者。(如攻擊者知道A使用者交際廣泛,與BCD交集緊密,疏遠EF,在網路圖中就有機會定位到A使用者)
1. 關係資料隱私保護難點
1)關係資料結構特徵多,包括各類度數分佈、最短路徑分佈、中心性分佈等,都可以成為進攻的切入點
2)關係資料中節點和邊都有大量的屬性資料,給攻擊者更多機會去識別使用者在現實生活中的身份
2. 本文目標:
1)對於關係資料中較重要的幾個結構特徵進行隱私保護
2)選擇的結構特徵:
a. 點度中心度:和節點關聯的邊的度數
b. 中心指紋:選擇若干個中心節點,普通節點和各中心節點的最小路徑組成的向量就是中心指紋(如圖中c)
c. 子圖:指節點集和邊集分別是某一圖的節點集的子集和邊集的子集的圖(如圖中b是a的子圖)
3)隱私保護目標:k-匿名。即將資料通過一定方式(如“188****0053”)將資料劃分成若干個等價類,每個等價類至少包含k條資料
3. 隱私保護方法:
1)保持節點不變,通過增加或減少邊的方式進行隱私保護。通過這種方法儘可能保持原有資料的質量。
2)對於具體某個等價類A的保護方法:
a. 為當前等價類A均增加邊,整體轉移到另一個等價類中。該等價類不存在,就不存在隱私洩露風險
b. 為其它等價類增加邊,轉移到當前等價類A中,提高了當前等價類A的k匿名程度,降低了隱私洩露風險
對於上述兩種方法,以“邊增加數量”作為代價函式,選擇代價最小的一種方法
4. 實踐 - GraphProtector:
1)資料匯入
2)優先順序判定:
a. 鎖定一部分重要節點(如核心人物),不對其進行邊的修改
b. 排序節點優先順序,優先對高優先順序節點進行隱私保護
3)評估指標選擇:選擇關注的實用性指標,資料處理前後會計算這些指標的變化,以此評估資料質量是否受到影響
4)隱私保護處理:提供多種隱私保護器,每種隱私保護器僅針對一種結構特徵進行隱私保護
a. 度數保護器:篩選出度數中樣本數小於k的,進行隱私保護
b. 中心指紋保護器:找到中心指紋等價類中樣本數小於k的,進行隱私保護
c. 子圖保護器:找到子圖等價類中樣本數小於k的,進行隱私保護
5)資料匯出
相關閱讀: