大資料中的貝葉斯學習
阿新 • • 發佈:2019-01-03
在大資料時代,種類多樣的科學與工程資料快速增加。由於物理環境的隨機性、資料噪聲、資訊不完全等因素的存在,大資料中具有普遍的不確定性。如何對大資料進行有效的不確定性建模和高效計算是機器學習面臨的重要挑戰。
貝葉斯方法自1763年提出以來,已有250多年的歷史,在人工智慧、機器學習的眾多領域得到了廣泛應用和發展。2011年的圖靈獎獲得者Judea Pearl教授的主要貢獻是將概率統計引入人工智慧,成為現代人工智慧的理論基礎。但是,在大資料環境下,貝葉斯學習面臨著多方面的挑戰。
近年來,貝葉斯方法在機器學習領域得到了快速發展。在基礎理論方面,正則化貝葉斯方法通過變分和資訊理論工具,在優化框架下引用後驗正則化項,擴充套件了貝葉斯方法在考慮問題屬性和領域知識的靈活性;同時,非引數化貝葉斯方法也得到了快速發展。在演算法方面,隨機梯度的變分推理和蒙特卡洛取樣演算法被提出,通過隨機取樣在單機上能有效處理大規模資料集;同時,為了提高可擴充套件性,分散式的變分推理和蒙特卡洛演算法也得到了重視和發展。在系統實現方面,貝葉斯方法已經在多種分散式計算框架下實現,包括:MapReduce/Spark,引數伺服器,圖計算(GraphLab)以及STRADS模型並行等。
最後,貝葉斯方法與深度學習具有互補的優勢,前者在不確定性推理與決策、小樣本學習方面具有獨特優勢;後者在表示學習、感知預測方面更靈活有效。二者的有機融合是未來的重要發展趨勢。另外,發展更加友好的平臺支援貝葉斯方法、深度學習以及二者的融合是另外一個重要趨勢。