大資料隱私保護技術綜述-大資料-2016
一、引言
如何在不洩露使用者隱私的前提下,提高大資料的利用率,挖掘大資料的價值,是目前大資料研究領域的關鍵問題。具體而言,實施大資料環境下的隱私保護,需要在大資料產生的整個生命週期中考慮兩個方面:如何從大資料中分析挖掘出更多 的價值;如何保證在大資料的分析使用過程中,使用者的隱私不被洩露。本論文將圍繞下圖所示的大資料隱私保護生命週期模型展開。
二、大資料生命週期的隱私保護模型
2.1 資料釋出
與傳統針對隱私保護進行的資料釋出手段相比,大資料釋出面臨的風險是大資料的釋出是動態的,且針對同一使用者的資料來源眾多,總量巨大。需要解決的問題是如果在資料釋出時,保證使用者資料可用的情況下,高效、可靠地去掉可能洩露使用者隱私的內容。傳統針對資料的匿名釋出技術,包括k-匿名、l-diversity匿名、t-closeness匿名、個性化匿名、m-invariance匿名、基於“角色構成”的匿名方法等,可以實現對釋出資料時的匿名保護。在大資料環境下,需要對這些資料進行改進和發展。
2.2 資料儲存
在大資料時代,資料儲存方一般為雲端儲存平臺,大資料的儲存者和擁有者是分離的,雲端儲存服務商並不能保證是完全可信的。使用者的資料面臨著被不可信的第三方偷竊資料或者篡改資料的風險。加密方法是解決該問題的傳統思路,但是,由於大資料的查詢、統計、分析和計算等操作也需要在雲端進行,為傳統加密技術帶來了新的挑戰。同態加密技術、混合加密技術、基於BLS短簽名POR模型、DPDP、Knox等方法,是針對資料儲存時防止隱私洩露而採取的一些方法。
2.3 資料探勘
在大資料環境下,由於資料存在來源多樣性和動態性等特點,在經過匿名等處理後的資料,經過大資料關聯分析、聚類、分類等資料探勘方法後,依然可以分析出使用者的隱私。針對資料探勘的隱私保護技術,就是在儘可能提高大資料可用性的前提下,研究更加合適的資料隱藏技術,以防範利用資料發掘方法引發的隱私洩露。現在的主要技術包括:基於資料失真和加密的方法,比如資料變數、隱藏、隨機擾動、平移、翻轉等技術。
2.4 資料使用
在大資料的環境下,如何確保合適的資料及屬效能夠在合適的時間和地點,給合適的使用者訪問和利用,是大資料訪問和使用階段面臨的主要風險。為了解決大資料訪問和使用時的隱私洩露問題,現在的技術主要包括:時空融合的角色訪問控制、基於屬性集加密訪問控制、基於密文策略屬性集的加密、基於層次式屬性集的訪問控制等技術。
以下分別針對大資料生命週期中的釋出、儲存、挖掘和使用4個過程中的隱私保護技術進行闡述。
3 大資料釋出隱私保護技術
匿名技術:資料持有方在公開發布資料時,這些資料通常會包含一定的使用者資訊,服務方在資料釋出之前需要對資料進行處理使使用者隱私免遭洩露。一般的,使用者更希望攻擊者無法從資料中識別出自身,更不用說竊取自身的隱私資訊。
資料釋出匿名:在確保所釋出的資訊資料公開可用的前提下,隱藏公開資料記錄與特定個人之間的對應聯絡,從而保護個人隱私。實踐表明,僅刪除資料表中有關使用者身份的屬性作為匿名實現方案是無法達到預期效果的。現有的方案是靜態匿名技術(以資訊損失為代價,不利於資料探勘與分析)、個性化匿名、帶權重的匿名等。後兩類給予每條資料記錄以不同程度的匿名保護,減少了非必要的資訊損失。
3.1 大資料中的靜態匿名技術
在靜態匿名策略中,資料釋出方需要對資料中的準標識碼進行處理,使得多條記錄具有相同的準標識碼組合,這些具有相同準標識碼組合的記錄集合被稱為等價組。
k-匿名技術就是每個等價組中的記錄個數為k個,即針對大資料的攻擊者在進行連結攻擊時,對於任意一條記錄的攻擊同時會關聯到等價組中的其他k-1條記錄。這種特性使得攻擊者無法確定與特定使用者相關的記錄,從而保護了使用者的隱私。
l-diversity匿名策略是保證每一個等價類的敏感屬性至少有l個不同的值,l-diversity使得攻擊者最多以1/l的概率確認某個個體的敏感資訊。
t-closeness匿名策略以EMD衡量敏感屬性值之間的距離,並要求等價組內敏感屬性值的分佈特性與整個資料集中敏感屬性值的分佈特性之間的差異儘可能大。在l-diversity基礎上,考慮了敏感屬性的分佈問題,要求所有等價類中敏感屬性值的分佈儘量接近該屬性的全域性分佈。
這些策略會造成較大的資訊損失,有可能使得資料的使用方做出誤判。
3.2 大資料中的動態匿名技術
針對大資料的持續更新特性,有的學者提出了基於動態資料集的匿名策略,這些匿名策略不但可以保證每一次釋出的資料才能滿足某種匿名標準,攻擊都也將無法聯合歷史資料進行分析和推理。這些技術包括支援新增的資料重發布匿名技術、m-invariance匿名技術、基於角色構成的匿名等支援資料動態更新匿名保護的策略。
支援新增的資料重發布匿名策略:使得資料集即使因為新增資料而發生改變,但多次釋出後不同版本的公開資料仍然能滿足l-diversity準則,以保證使用者的隱私。資料釋出者需要集中管理不同釋出版本中的等價類,若新增的資料集與先前版本的等價類無交集並能滿足l-diversity準則,則可以作為新版本釋出資料中的新等價類出現,否則需要等待。若一個等價類過大,則要進行劃分。
m-invariance匿名策略:在支援新增操作的同時,支援資料重發布對歷史資料集的刪除。
3.3 大資料中的匿名並行化處理
大資料的巨規模特性使得匿名技術的效率變得至關重要。大資料環境下的資料匿名技術也是大資料環境下的資料處理技術之一,通用的大資料處理技術也能應用於資料匿名釋出這一特定目的。分散式多執行緒是主流的解決思路,一類實現方案是利用特定的分散式計算框架實施通常的匿名策略,另一類實現方案是將匿名演算法並行化,使用多純種技術加速匿名演算法的計算效率,從而節省了大資料中的匿名並行化處理的計算時間。
使用已有的大資料處理工具與修改匿名演算法實現方式是大資料環境下資料匿名技術的主要趨勢,這些技術能極大地提高資料匿名處理效率。
4 大資料儲存隱私保護技術
4.1 大資料加密儲存技術
傳統的DES、AES等對稱加密手段,雖能保證對儲存的大資料隱私資訊的加解密速度,但其金鑰管理過程較為複雜,難以適用於有著大量使用者的大資料儲存系統。傳統的RSA、Elgamal等非對稱加密手段,雖然金鑰易於管理,但演算法計算量太大,不適用於對不斷增長的大資料隱私資訊進行加解密。資料加密加重了使用者和去平臺的計算開銷,同時限制了資料的使用和共享,造成了高價值資料的浪費。
同態加密演算法可以允許人們對密文進行特定的運算,而其運算結果解密後與用明文進行相同運算所得的結果一致。全同態加密演算法則能實現對明文所進行的任何運算,都可以轉化為對相應密文進行恰當運算後的解密結果。將同態加密演算法用於大資料隱私儲存保護,可以有效避免儲存的加密資料在進行分散式處理時的加解密過程。
4.2 大資料審計技術
當用戶將資料儲存在雲伺服器中時,就喪失了對資料的控制權。為了防止資料在使用者不知情的情況下被修改,可以採用雲端儲存中的審計技術。雲端儲存審計指的是資料擁有者或第三方機構對雲中的資料完整性進行審計。通過對資料進行審計,確保資料不會被雲服務提供商篡改、丟棄,並且在審計的過程中使用者的隱私不會被洩露。
可證明的資料持有模型(PDP):該模型可以對伺服器上的資料進行完整性驗證,該模型中挑戰應答協議傳輸的資料量非常少,因此所耗費的網路頻寬較小。
可恢復證明模型(POR):利用糾錯碼技術和訊息認證機制來保證遠端資料檔案的完整性和可恢復性。該模型面臨的挑戰在於需要構建一個高效和安全的系統來應對使用者的請求。
未來的研究熱點:一是雲中資料量越來越大,資料種類越來越豐富,如何提供更加高效、安全的審計服務?二是隨著人們在線上的互動越來越頻繁,雲中資料動態操作可能更加頻繁,如何應對如此頻繁的資料動態操作?
5 大資料探勘隱私保護技術
隱私保護資料探勘,即在保護隱私前提下的資料探勘,主要的關注點有兩個:一是對原始資料集進行必要的修改,使得資料接收者不能侵犯他人隱私;二是保護產生模式,限制對大資料中敏感知識的挖掘。
5.1 關聯規則的隱私保護
這種保護有兩類方法:
(1)變換:修改支援敏感規則的資料,使得規則的支援度和置信度小於一定的閾值而實現規則的隱藏。
(2)隱藏:不修改資料,對生成敏感規則的頻繁項集進行隱藏。
5.2 分類結果的隱私保護
分類方法的結果通常可以發現數據集中的隱私敏感資訊,因此需要對敏感的分類結果資訊進行保護。這類方法的目標是在降低敏感資訊分類準確度的同時,不影響其他應用的效能。
5.3 聚類結果的隱私保護
一個較好的方案是:先對原始資料進行幾何變換,以對敏感資訊進行隱藏,然後是聚類過程,經過幾何變換後的資料可以直接應用傳統的聚類演算法進行聚類。
6 大資料訪問控制技術
大資料訪問控制技術主要用於決定哪些使用者可以以何種許可權訪問哪些大資料資源,從而確保合適的資料及合適的屬性在合適的時間和地點,給合適的使用者訪問,其主要目標是解決大資料使用過程中的隱私保護問題。大資料給傳統訪問控制技術帶來的挑戰如下:
(1)大資料的時空特性,大資料下的訪問控制模型需要在傳統訪問控制的基礎上,充分考慮使用者的時間資訊和位置資訊。
(2)在大資料時代的開放式環境下,使用者來自於多種組織、機構或部門,單個使用者又通常具有多種資料訪問需求,應如何設定角色併為每個使用者動態分配角色?
(3)大資料面向的應用需求眾多,不同的應用需要不同的訪問控制策略。
6.1 基於角色的訪問控制技術
不同角色的訪問控制權限不盡相同。通過為使用者分配角色,可實現對資料的訪問許可權控制,因此,角色挖掘是前提。
6.2 基於屬性的訪問控制
通過將各類屬性,包括使用者屬性、資源屬性、環境屬性等組合起來用於使用者訪問許可權的設定。
7 結束語
如何在不洩露使用者隱私的前提下,提高大資料的利用率,挖掘大資料的價值,是目前大資料研究領域的關鍵問題。
相關推薦
大資料隱私保護技術綜述-大資料-2016
一、引言 如何在不洩露使用者隱私的前提下,提高大資料的利用率,挖掘大資料的價值,是目前大資料研究領域的關鍵問題。具體而言,實施大資料環境下的隱私保護,需要在大資料產生的整個生命週期中考慮兩個方面:如何從大資料中分析挖掘出更多 的價值;如何保證在大資料的分析使用過程中,使用
曲速未來 :以門羅幣為例如何運用區塊鏈隱私保護技術
區塊鏈安全諮詢公司 曲速未來 表示:在當今的加密技術中,隱私是一個很重要的話題,這已經不是什麼祕密了。無論是公司還是個人都不希望將自己的所有資訊釋出到公共區塊鏈上,不受任何限制,被本國政府、外國政府、家庭成員、同事或商業競爭對手隨意讀取。 比特幣最初是作為一種假名加密貨幣開發的
資料探勘技術在軌跡資料上的應用實踐
![](https://img2020.cnblogs.com/other/1632886/202009/1632886-20200927195536176-2111762314.png) ![](https://img2020.cnblogs.com/other/1632886/202009/163288
資料脫敏平臺-大資料時代的隱私保護利器
什麼是資料脫敏 又稱資料漂白、資料去隱私化或資料變形。是對核心業務資料中敏感的資訊,進行變形、轉換、混淆,使得對業務資料中的身份、組織等隱私敏感資訊進行去除或掩蓋,以保護資料能被合理、安全地利用。 ◆ ◆ ◆ 資料脫敏的重要性 1)敏
未經同意便“被公開” 大資料時代個人隱私資料如何保護?
近日,大資料洩露個人隱私的一個案例引發廣發關注——一款航旅類App測試中的“虛擬客艙”功能可檢視
大資料技術綜述
Big Data(大資料技術)是近來的一個技術熱點,但從名字就能判斷它並不是什麼新詞。畢竟,大是一個相對概念。歷史上,資料庫、資料
課工場大資料學員從技術晉升到PMO,年薪突破39萬元
IFTNews:課工場最近捷報頻傳,在10月份北美大資料高薪就業班全員平均月薪過萬後,大資料班某學員近日又成功就職於北京某銀行,獲得39萬年薪成功轉型,AI獲得了職業上的提升。而課工場年初許諾的“高薪就業年”高薪就業記錄又一次被重新整理高。 畢業於211學校的該學員曾任職於屬於金融IT解決方案服務商的頭部公
大資料入門環境搭建整理、大資料入門系列教程合集、大資料生態圈技術整理彙總、大資料常見錯誤合集、大資料的離線和實時資料處理流程分析
本篇文章主要整理了筆者學習大資料時整理的一些文章,文章是從環境搭建到整個大資料生態圈的常用技術整理,環境希望可以幫助到剛學習大資料到童鞋,大家在學習過程中有問題可以隨時評論回覆! 大資料生態圈涉及技術: Hadoop、MapReduce、HDFS、Hive、Hbase、Spark、Scala
大資料全系技術概覽
什麼是大資料? 大資料(big data),指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時
大資料技術#1 大資料技術生態體系
什麼是大資料 關於大資料麥肯錫全球研究所給出的定義是:一種規模大到在獲取、儲存、管理、分析方面大大超出了傳統資料庫軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。 所謂的大資料生態系統簡單可以理解成集成了大資料的儲存和計算
大資料開發及和大資料相關的技術
在現如今,隨著網際網路技術飛速的發展,目前有不少朋友詢問關於大資料方面的問題,比如什麼是大資料開發啊,和大資料相關的技術是什麼呢等問題,我們今天就淺談一下大資料開發及和大資料相關的技術的問題。 首先,大資料(big data),指無法在一定時間範圍內用常規軟體工具進
2018年決定你薪資的大資料相關的【十大技術】
大資料技術指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。 1、Java程式設計技術 Java程式設計技術是大資料
後 Hadoop 時代的大資料技術思考:資料即服務
備註:此部落格轉自搜狐科技部落格,原作者地址請點選此處 標題:後 Hadoop 時代的大資料技術思考:資料即服務 1. Hadoop 的神話正在破滅 IBM leads BigInsights for Hadoop out behind barn. Shot
大資料視覺化技術棧
作者:微瀾潮生 連結: https://www.zhihu.com/question/19710815/answer/18592659 來源:知乎
大資料到底是什麼?大資料技術有哪些優點?
究竟什麼是大資料?如何對大資料進行定義?大資料有哪些特徵?瞭解了這些才能更好的知道自己學習是怎樣的一門技術,以及它的前景如何。本文達妹就帶大家一起了解大資料。 DT時代,人人言必稱大資料,所有的新系統幾乎都是基於大資料,有人認為用了MongoDB就是大資料,也有人用了Hadoo
大資料平臺的技術演化之路 諸葛io平臺設計例項
如今,資料分析能力正逐漸成為企業發展的標配,企業通過資料分析的過程將資料中的資訊提取出來,進行處理、識別、加工、呈現,最後成為指導企業業務發展的知識和智慧。而處理、識別、加工、呈現的過程從本質上來講,就是實現對資料的採集、清洗、加工、載入、建模分析,再到視覺化的過程。
大資料平臺架構技術選型與場景運用
導讀:本文將大資料的工作角色分為三種類型,包括業務相關、資料科學相關和資料工程。大資料平臺偏向於工程方面,大資料平臺一般包括資料來源、資料採集、資料儲存、資料分析等方面。 講師從資料來源、資料來源結構、資料變化程度和資料規模等4個維度對資料來源進行分類,資料來源分類維度的
大資料的核心技術(二)
我們在上一篇文章中給大家介紹了大資料的部分核心技術,分別是資料探勘和機器學習。在大資料中,資料探勘和機器學習都是發揮了不同的功能。在這篇文章中我們給大家介紹一下人工智慧和其他大資料處理的基礎技術,希望這篇文章能能夠給大家帶來幫助。 首先說說人工智慧,AI和大資料是相互促進的關係,一方面,AI基礎理論技術
大資料的核心技術(一)
我們在之前的文章中提到過,大資料的核心技術就是機器學習、資料探勘、人工智慧以及其它大資料處理基礎技術。在這篇文章中我們給大家詳細地介紹一下這些內容,希望這篇文章能能夠給大家帶來幫助。 首先說一下機器學習,一般資料分析師都知道,機器學習是大資料處理承上啟下的關鍵技術,機器學習往上是深