1. 程式人生 > >資料隱私與加密學技術 |鏈捕手

資料隱私與加密學技術 |鏈捕手

資料隱私與加密學技術 |鏈捕手
原創: 徐茂桐 鏈捕手 3天前

8月20日,中國網際網路絡資訊中心(CNNIC)釋出報告顯示,我國網民突破8億,其中超過98%的人每天用手機上網。實際上在我們享受網際網路帶來便利的同時,每個人的隱私也在不斷被洩露與買賣中。

資料隱私洩露的現狀如何?國內外相關的立法程序如何?資料隱私洩露的問題到底有沒有辦法解決?應鏈捕手(ID:iqklbs)邀稿,ARPA聯合創始人&CEO徐茂桐撰寫了本文,ARPA致力於為企業提供資料安全隱私的計算解決方案。相信徐茂桐精彩的分享,應該能給你帶來啟發。

作者/徐茂桐

編輯/潘宇波

未經授權,謝絕轉載

01

資料隱私的發展現狀

隨著網際網路的高速發展,我們在享受豐富的網際網路產品和服務的同時,也在時時刻刻向提供商提供關於我們自己的全方位個人資訊。

廣義上來說,所有由我們本人發起的網路使用行為,都可以看做是我們的個人資訊。而我們在網上所體現出的所有個人資訊,包括我們的瀏覽習慣、地理位置、裝置IP、使用的瀏覽裝置和瀏覽器的型號都在不斷被收集、儲存和處理。

數以億計的使用者撐起了全球網際網路科技企業超過9萬億美元的市值,而當網際網路發展愈發呈現寡頭化趨勢之後, 個人資料更趨於集中,一旦洩露造成的後果也越來越嚴重。

根據,中國網際網路協會在2016年釋出的《中國網民權益保護調查報告》顯示,2016年國內有6.88億網民曾遭受過不同程度的個人資訊洩露,造成的經濟損失估算達915億元。

資料隱私洩露事件層出不窮:

今年1月,掌握著印度10億公民的身份資料庫Aadhaar被曝遭網路攻擊,該資料庫除了記錄人們的名字、電話號碼、郵箱地址等資訊外,還涉及人的指紋、虹膜紀錄等極度敏感的資訊。

今年3月,Facebook資料洩露醜聞爆發,至少8700萬用戶的隱私資料遭洩露,Facebook股價在之後下跌超過20%。

今年6月,一位ID為「f666666」的使用者在暗網上開始兜售圓通10億條快遞資料,該使用者表示售賣的資料為2014年下旬的資料,資料資訊包括寄(收)件人姓名,電話,地址等資訊,10億條資料已經經過去重處理,資料重複率低於20%,並以1比特幣打包出售。

……

所以,我們可以看到資料洩漏已經從姓名、家庭住址、電子郵箱、電話號碼,到個人身份證、護照號碼,甚至到個人生物識別資訊如虹膜、基因資訊。對於普通民眾來說,這些重要的身份資訊一旦洩露我們就如同裸奔。

對於企業而言,一旦發生資料洩露的事件,造成的影響和損失也是巨大的。據IBM研究報告顯示,資料洩露事件的平均總成本為220萬美元(被盜資料在10000條以下)到690萬美元(被盜資料超過 50000條)。

對於那些登上新聞頭條的大規模資料洩露事件,IBM的調研結果表明,一次重大資料洩露事件(涉及100萬條記錄)的成本可能高達3949萬美元。這一數字會隨著遭洩露記錄數量的增加而增加,這在意料之中。例如,5000萬條記錄的洩露事件可能就會導致損失3.5億美元。

其實,在資料隱私洩露一浪高過一浪的今天,一直領跑標準制定的歐洲和美國早已釋出了資料行業的新規定。

歐洲最先針對普通消費者的資料發動了保護。今年3月21日,歐盟委員會發布了兩項提案,提出針對數字化業務活動徵收數字服務稅(DST)。歐盟認為,現有的稅法已經難以跟上企業數字化運營的步伐。DST提案基於總收入(營業額)繳稅,歐盟各成員國採用3%的統一稅率。這其中包括出售來源於使用者所提供資訊、資料和資料的收入。

緊接著,今年5月25日,歐盟開始強制實施了被稱為史上最嚴苛資料隱私保護法的GDPR(General Data Protection Regulation,「通用資料保護條例」)。條例規定了企業在對歐盟公民進行資料收集、儲存、保護和使用時的新行為標準,也給予了使用者對自己資料更廣泛的處理權和決定權。普華永道指出:「這將影響在歐洲內外儲存或使用歐洲公民個人資料的每個實體。」

現有法律更加偏向於對個人可識別資訊(PII)的保護,而GDPR則把範圍拓展到了數字世界裡的cookie、device ID、IP地址等個人行為資料。針對資料收集者,GDPR規定不能用隱藏預設的方式獲取使用者許可,必須提前進行明確的提示與詢問,獲得允許後才可以獲取使用使用者資料;收集之後還需要為使用者提供檢視收集資料概覽及用途,還必須要設定使用者刪除的功能。

從使用者的角度,GDPR規定使用者對自己的資料擁有完全的所有權,即便同意收集方收集,也可以隨時檢視並撤回刪除相關的協議,在使用者撤回刪除相關授權後,資料收集者必須立即將相關資料進行匿名化處理。

每次違反條例最高處罰金額為該公司年度營業額的4%,或者2000萬歐元,最後取決於哪個數值更大。像Google或 Facebook這類的巨頭公司 或許能承受起這種程度的罰款,但對於規模小一些的公司,這種處罰將會是致命的。

如今飛速發展的的大資料、雲端計算、AI市場無一不嚴重依賴資料,這個最嚴格條例一出,國際網際網路企業一片哀嚎。因此,GDPR也被認為掣肘了人工智慧和資料行業的發展。

再看美國資料隱私的監管現狀,美國早在1996年就開始實施保護個人醫療資料的健康保險隱私及責任法案(Health Insurance Portability and Accountability Act,縮寫HIPAA)。

該法案制定了一系列的安全標準,就保健計劃、供應商以及結算中心如何以電子檔案的形式來傳送、訪問和儲存受保護的健康資訊做出了詳細規定。法案規定在確保私密性的情況下儲存病人資訊檔案六年,還詳細規定了醫療機構處理病人資訊規範,以及違法保密原則、通過電子郵件或未授權的網路登出病人檔案的處罰方案。

HIPAA定義以下資訊為「受保護的健康資訊」(PHI):

•姓名

•出生日期,就醫,入院和出院日期,和死亡日期

•電話號碼,地址(包括市,縣,或郵政編碼)傳真號碼等聯絡方式

•社會安全號碼

•病歷號

•照片

•手指和語音列印

•任何其他獨特的識別號碼

那麼資料資訊在我國發展情況又是如何呢?

根據我國工信部《大資料產業發展規劃(2016-2020年)》,到2020年大資料相關產品和服務業務收入應突破1萬億元,年均複合增長率保持30%左右,中國將成為全球最大的大資料產業國之一。

黑市交易依然是我國資料交易的主流。財經網的一篇報道指出, 中國大資料被黑市壟斷,所有正規資料交易所和第三方公司收入相加一年不到50億元,因此資料行業存在巨大的增長潛力,但如果想擺脫黑市的壟斷,需要在技術層面提供安全的資料分享解決方案。

據不完全統計,國內個人資訊洩露數達55.3億條左右,平均每人就有4條相關的個人資訊洩露,這些資訊最終的命運,是在黑市中反覆倒手,直至被榨乾價值。其中,80%的資料洩露自企業內鬼,黑客僅佔20%。直到2017年6月《網路安全法》出臺,各類灰色和黑色資料產業才逐漸收斂,但依然暗流湧動。

圖表來源,中國消費者協會2018年下半年組織開展的“App個人資訊洩露情況”問卷調查

02

加密學的幾種技術盤點

其實,我們認為資料行業交易的應該是資料的使用權,而不是資料本身。資料由於本身易複製和可傳播的特性,在現行的科技手段下,不能有效地防止資料在分享和使用的過程被洩露。

從企業端來看,大資料分析一般由第三方對各類資料來源進行合併、分析和建模。資料集中化收集導致隱私資訊洩露等風險,導致目前只有1%的企業資料向第三方如大資料公司、AI公司分享。擁有資料的公司無法安全的將資料共享或變現,進而產生一個個資料孤島。

從使用者端來看,大資料公司、開發者和科學家僅能接觸到有限的資料集,並且費用高昂。與運營商等大資料來源的合作需要開發人員現場部署模型於資料來源的伺服器上,模型演算法存在洩露風險,且效率低下。

而要想找到資料隱私的保護手段,其實是可從可信硬體和密碼學兩個方向入手。硬體手段主要是可信執行環境(Trusted Execution Environment),而密碼學手段主要有同態加密(Homomorphic Encryption, HE),零知識證明(Zero-knowledge Proof, ZKP),以及安全多方計算(Multi-party Computation)。

同態加密

同態加密是一種支援密文運算的加密方式。數學上,同態描述了將一個數據集合轉換為另一個集合的對應關係,同時保持了兩個集合中元素之間的運算結構。由於同態加密中的明文與密文滿足同態性,因此對應的數學運算, 無論是對加密資料還是明文資料執行,都將得到相同的結果。從而,可在不暴露明文的情況下,利用密文運算獲得資料計算結果,實現了資料隱私和資料處理的並存。

同態加密有望在雲端計算中發揮重要作用,允許公司將加密資料儲存在公共雲中,並利用雲提供商的分析服務。目前由於理論基礎和技術發展的限制,同態加密的效率距實用差距很大,在短期內難以進行大規模的商用。

零知識證明

零知識證明可簡單描述為,證明者能夠在不向驗證者提供任何有用資訊的情況下,使驗證者相信某個論斷是正確的證明方法。零知識證明被大量密碼學協議用作基本模組,但在構建隱私計算方面仍有多方面技術難點需要突破,包括一般性函式的計算,執行效率,多方資料隱私,可信初始化等問題。

可信執行環境

可信執行環境通過在硬體計算平臺上引入安全軟硬體協同設計架構來提高系統的安全性。通過基於硬體金鑰的安全程式碼載入,強制硬體環境中計算行為不可作惡。其優點是速度較快,缺點是過於中心化,需要信任硬體提供方,並且存在設計漏洞,易被側通道攻擊等安全風險。

安全多方計算 

安全多方計算研究的是在無可信第三方的情況下,幾個相互不信任的參與方如何安全地計算一個約定函式的問題。

安全多方計算可在明文資料不離開各自節點的前提下,完成多方協同分析、處理和結果釋出,適合以下應用場景:多個機構之間想共享資料以供資訊聯合查詢,但又互不信任,每個機構都需要防止資料洩露。利用安全多方計算技術,可以實現資料的安全查詢,即在不洩漏任何一方資料的情況下對資料整合和分析,如此,企業可以在我們的技術的幫助下打通這一原本不可能的場景,並且滿足法律合規的需求。

安全多方計算對參加計算節點的算力和頻寬有一定要求。但近幾年科研方面的突破讓計算速度有了指數級的提升。

03

安全多方計算或將成熱點

綜合考慮安全性、效率、運算能力、所能處理問題的複雜程度,在幾種加密技術方案中,我們更看好安全多方計算。在近期,它越來越受到重視,被視為區塊鏈發展和資料安全解決方案的熱點。

自1982年由華裔電腦科學家、圖靈獎獲得者姚期智教授提出安全多方計算以來,至今它發展了30餘年,目前安全多方計算效率在迅速提升,約比明文計算慢兩個數量級,我們認為目前已支援中大規模商用。

資料預處理效率相較 2012 年提高了 200 多倍,計算所需時間不到明文的 10 倍。

目前區塊鏈的共識過程存在大量冗餘計算,中間浪費了許多算力和時間成本。並且,所有鏈上資訊和智慧合約都是公開的,這被視為是企業大規模部署Dapp以及敏感資料上鍊的重大障礙。安全多方計算恰恰就能改變這一點,它自帶的可驗證計算的特性避免了冗餘計算,而且能保證參與運算的資料的安全與隱私。

我們如今正在跟歐洲領先的研究型高等院校合作,用安全多方計算去搭建一個多方資料安全共享平臺。具體的計算任務由參與計算的多個節點共同完成,每個節點只能拿到資料經過混淆、掩蓋的資料片段。這些片段獨立存在時沒有任何意義,只有將它們用密碼學演算法重建時才能合併出資料明文。我們只需要保證有至少一個誠實節點,所有資料便是安全的。

這種去中心化的技術杜絕了原始資料的洩露,從根本上解決了資料共享和使用中的信任問題,所以安全多方計算有廣闊的市場前景。

最後,列舉幾個安全多方計算常見的應用場景:

資料安全查詢 

政府部門的系統中往往儲存了大量的公民個人資料和企業經營資料,很多商業機構需要查詢資訊用作商業用途,但政府不希望資料被洩露或被拷貝走,同時,有些場景下商業機構也不希望政府知道其查詢條件。利用安全多方計算技術,可以實現資料的安全查詢。

除此之外,資料安全查詢的解決方案還可應用在商業競爭、資料合作等眾多領域中。

聯合資料分析 

跨機構的合作以及大型企業的經營運作經常需要從多個數據源獲取資料,拼湊成全量資料再進行分析。已有的資料分析演算法可能導致隱私暴露,安全多方計算平臺可以使原始資料在無需歸集與共享的情況下實現計算,保護目標資料持有方的隱私及資產安全。

聯合徵信 

安全多方計算平臺可賦能金融、保險企業對客戶的負債率等風險指標進行聯合分析。目前各家金融、保險、資產管理機構只掌握客戶部分資料,從而導致風險評估誤差。聯合分析不洩露各參與方資料,對客戶的風險有整體評估,在多頭借貸等場景下能有效降低違約風險。

多維度健康分析 

安全多方計算平臺賦能醫療機構對病人在多家醫院的病歷和智慧硬體生物資料進行分析,從而在病人、醫院和智慧硬體廠商資料不洩露的情況下,對病人有更精準的診斷。同時,針對醫療機構的聯合資料分析可以讓藥品研究機構對某特定地區特定病種有更全面的瞭解。

精準廣告投放 

安全多方計算平臺賦能商戶對潛在客戶多維度資訊進行分析,從而更精準的投放廣告。廣告投放機構可以從更多資料維度對客戶購買意向建模,且資料來源不洩露個人隱私資料。

資料匹配 

安全多方計算平臺可完成兩方或多方的去中心化資料匹配,資料無需脫敏。

我們的長期目標,是想讓每個人把個人資料,包括行為、醫療、健康和基因資料在保護隱私的情況下安全、高效地變現。如此,不僅能讓更多人意識到資料的價值,推動社會對個人隱私的守護意識,還能解放大量資料,增加資料流動性,形成雙邊資料市場,從而更快推動人工智慧的發展。

*本文中所提供的法律資訊不構成專業解讀或律師意見

核心參考資料:

《2017資料洩露盤點》

《FT中文網 資料洩露專題 》

《IBM 研究報告:資料洩露比流感更常見 損失到底有多大》

《超30億條使用者資料洩露 BAT無一倖免》

《GDPR解讀》

《HIPAA-知乎》

《GDPR-36氪》

《EY全球稅務簡報 歐盟委員會發布對數字化活動徵稅的提案》

《中國大資料被黑市壟斷,正規玩家年收入不到50億》

《2018資料洩露盤點》

誠摯招聘:鏈捕手正在招募記者,工作地點在北京東城區。期待有才氣、有熱情的小夥伴加入我們。如需瞭解具體的招聘資訊,請在後臺留言「招聘」。