1. 程式人生 > >Big Data Opportunities and Challenges(by周誌華)論文要點

Big Data Opportunities and Challenges(by周誌華)論文要點

重要 big data 環境 數據分布 範式 hal 大數據挖掘 目標 最優化

  • 大數據環境下的機器學習

三種誤解:模型不再重要(大量數據上復雜模型依然提升顯著,大數據是的復雜模型充分利用數據且難以過擬合),相關性就足夠了(因果關系重要性無法被替代),以前的研究方向不再重要(高性能計算和存儲依然重要)

機遇和挑戰:只過目一遍數據的學習,高度可解釋的模型,低質量樣本集上的學習

  • 大數據挖掘和研究

天文信息學的產生,應對數據分布偏移,流式學習,可擴展可遷移的學習,即便略微損失預測精度業界更認可簡單模型,集成多種數據統一特征表示的學習,社交行為理解

數據->知識->發現->行動:不僅僅補充根據現有假設的研究而是從數據中發現新現象新設想,眾多大企業生產力因數據分析顯著收益,衛生領域使用NLP技術分析客戶的情感和滿意度

機遇和挑戰:擁有領域知識的關鍵性,提出有深度和普遍的問題,考慮新增數據源帶來的收益(即使是簡單算法),計算平臺架構的演進,對數據中問題和局限性的理解

  • 大數據的全局最優化

進化算法

復雜系統的全局最優化:非線性關系的多決策變量、互相沖突的多目標,優化目標過多導致太多Pareto最優解、很難求解,評估解的質量大量消耗算力,實時優化問題,穩定和快速調整解決方案,優化過程中提取知識

機遇和挑戰:集成各種學習範式和優化的技術,形式化問題的更好方法,漸進學習、簡化優化問題,高維可視化

  • 大數據環境下的產業、政府和社會

分解大數據:隱私和安全問題

分解成子模型:集成大量異質模型(即使小模型對應假設子空間有重疊)

實時在線分析:在線增量學習

極端數據分布-隱私和所有權:Wikileaks,在個人設備上計算,將個體上的計算集成的學習

機遇和挑戰:識別有共同行為的群體、個體層次的建模,實時自主學習、為自主目標的學習

Big Data Opportunities and Challenges(by周誌華)論文要點