聯邦學習系列---讀書個人總結
阿新 • • 發佈:2020-10-12
聯邦學習系列----1
引言
最近剛開源了FedML, 對於這個領域挺好奇,覺得好好讀一讀。
文章: https://arxiv.org/pdf/2007.13518.pdf
庫的程式碼:https://github.com/FedML-AI/FedML-docs
對於《聯邦學習》一書,進行一章一章的總結,也就是重新的排列,無新知識的補充。
引言介紹人工智慧面臨的挑戰和聯邦學習可作為一個幼小的方案去解決,最後介紹分類和發展。
1 人工智慧面臨的挑戰
人工智慧的快速發展,帶動了多領域的發展,但也存在很多挑戰
- 大資料時代,很難獲得統一格式的資料,而且很多資料都是小規模和碎片化的,比較難處理和分享使用。
- 法律層面,歐盟的《通用資料保護條例》、美國的《加利福尼亞消費者隱私法》、中國的《中國人民共和國網路安全法》都對新資料的收集和處理提出嚴格的約束和控制;
- 共享資料後的模型益處分配效果不明顯,可能失去資料的掌握權,阻礙了人工智慧的前進。
2 聯邦學習的來源和挑戰
2.1 聯邦學習的由來
在大資料背景下,資料往往是小規模、碎片化存在的,資料之間彼此獨立,在掌握權不丟失的情況下,多方參與共同搭建高效能模型,保護資料的隱私,同時最大化雲系統下終端裝置的計算能力。
2.2 聯邦學習的挑戰
- 參與方與聚合器之間通訊,可能存在參與方過多,或者速度很慢,不穩定、資料非獨立同分布
- 樣本數量、特徵數量不同,參與方的計算能力和產生的模型誤差, 導致聚合的結果不理想。
- 容易受到攻擊,導致模型可用性降低(如投毒攻擊等)。
3 聯邦學習的定義
聯邦學習基於分散式資料集建立模型,包括訓練和推理,訓練可以交換相關資訊或者加密形式交換,但是不包括資料。
Note
- 有兩個或以上的參與方協作構成建一個共享的機器學習模型
- 訓練過程中,資料不離開參與方
- 相關資訊可以以加密的方式傳輸或傳換,並且不能通過這些資訊推測出其他方的原始資料
- 效能充分逼近理想模型
例:有N個參與方{Fi}和N個數據集{Di},分為傳統訓練和聯邦訓練:
傳統:將所有的資料集傳送到雲伺服器,進行訓練,得到模型Msum
聯邦:各個參與方Fi
設非負實數a, 當Msum-MFED<a , 我們認為就可以採用聯邦學習,適當地下降效能,而起到保護資料的作用,我們是可以接受的。
聯邦學習的分類
種類 | 劃分標準 |
---|---|
橫向聯邦 | 當特徵重疊較多時 |
縱向聯邦 | 當樣本重疊較多時 |
遷移聯邦 | 重疊都比較少時 |
如圖
這是聯邦學習的簡易圖:
原書是這樣子的:
自己練手。勿噴。