大資料暑期學校心得體會
7月16日上午,王立威教授做了《機器學習理論》的報告。聽完王老師的報告,奧卡姆剃刀這個哲學思想使我對機器學習的研究有了新的認識。報告首先介紹了機器學習理論泛化性這一概念,我的理解就是——對現有樣本學習後生成的準則對其他資料的適用能力。王老師將機器學習用胡克定律進行引入,並且經常用8階多項式的擬合問題進行舉例,深入淺出。然後,王老師介紹了機器學習用到的統計方面的知識,比如:馬爾科夫不等式、切比雪夫不等式、中心極限定理等。接下來,王老師從VC緯度、邊界理論、演算法穩定性的方面討論了演算法的泛化性問題。最後,介紹了機器學習的前沿動態:使用SGD(Stochastic Gradient Descent)進行大規模機器學習。我接下來要用王老師提到的分類器進行實驗,並且在注重準確率的同時注意演算法的泛化性,最好可以定量衡量。
7月16日上午,孟德宇教授做了《自步學習》、《張量稀疏性》和《誤差建模》3個報告。聽報告當中,我折服於老師深厚的數學功底。《誤差建模》報告中,通過對不同噪聲建模,得到了一些有趣的資訊,比如有的噪聲分離出來其實是人影、噴泉等形狀。在誤差建模時,可以使用一些特殊領域的先驗知識。關於老師的講座,還有一點對我有用就是雨天噪聲的建模,應用了MoG,文章投稿於ICCV。對於去模糊處理,孟老師講到的tensor sparsity也可以應用於此。自步學習是基於學習由易到難的思想,這個思想也是從我們人類從小到大的學習規律得到。
7月18日上午,孫劍教授做了《深度學習方法在影象模型學習中的應用》的報告。首先,孫老師就影象處理的基本概念進行了科普。接下來,對團隊運用深度學習方法近些年的研究成果進行了總結。我印象比較深刻的是影象去模糊的具體應用,用到的是深度學習方法。該方法需要基於patch的方式得到運動方向,然後對非均勻的模糊影象進行建模,最後恢復原影象。馬爾科夫隨機場使周圍光滑化。並且在老師的主頁有程式碼,底層使用cuda程式設計。還在孫老師的報告聽到一個點:遷移學習。我的理解是,遷移學習在樣本數量不夠的情況下,提取原有樣本和目標樣本之間的共同特徵,通過對現有樣本的學習來對測試資料進行分類。在面對某一領域的具體問題時,通常可能無法得到構建模型所需規模的資料。藉助遷移學習技術,我們可以直接使用預訓練過的模型,這種模型已經通過大量容易獲得的資料集進行過訓練(雖然是針對完全不同的任務進行訓練的,但輸入的內容完全相同,只不過輸出的結果不同)。遷移學習技術的另一個重大收益在於可以對模型進行完善的“通用化”。
《標記分佈正規化》和《多標記機器學習》兩個報告從標記的維度研究了機器學習演算法。傳統的標記都是人為應用一個最大值,而標記分佈運用標籤概率分佈對一個樣本進行了更全面描述,能夠處理標記的不同重要程度(描述度)。對這個概念我的理解是:標籤分佈與概率統計中概率密度類似,同一個樣本的所有標記概率求和為1。多標記機器學習是一種比傳統單標記和多標記學習更為泛化的學習正規化。它需要專門的演算法設計和評價指標。可以應用的場景是:資料本身具有某種天然描述度度量;標記之間有較強相關性;同一事例由多個標註源標註併產生不一致性;同一樣本與多標記相關且重要程度不同。
《標記分佈正規化》報告中,張老師介紹了多標記學習的概念、具體學習演算法等內容。該報告中,張老師還提到了類別不平衡的相關概念,我查閱了周志華《機器學習》一書3.6章節類別不平衡的問題。類別不平衡(class-imbalance)就是指分類任務中不同類別的訓練樣例數目差別很大的情況。書中假定正樣本少,反樣例多,這與張老師的假設相同。處理類別不平衡問題有以下策略:①閾值移動;②反樣本欠取樣;③正樣本過取樣。其中,②方法時間開銷較小,常用演算法有EasyEnsemble;③方法代表性演算法有SMOTE。
在《稀疏到深層次的視覺特徵表示》報告中,劉青山教授主要從視覺特徵入手,通過在原有的目標函式上加入正則項來提高模型的泛化性,並將其應用到實際生活中,比如:人臉匹配、表情識別以及超圖建模,將級聯迴歸模型與跟蹤相結合對視訊建模,得到更好的預測效能。
《大資料視覺化》報告中,學到了一些資料視覺化工具,對互動分析資料很有用,比如:Jigsaw,iVisDesigner, DataDriller和Interaction+;《序列資料深度學習及其思考》報告給我最深的印象就是在神經網路中引入了反饋機制和順序原則。深度學習是最近炒得很熱的一個概念,其實深度學習可以簡單的認為是很深層的神經網路。一個非常有趣的事實是,神經網路在經歷了幾次寒冬後,科學家們為了保證科研成果能夠更大概率的發表,啟用了新名詞——深度學習。
聽完資料探勘暑期學校這些天的課程,使我對人工智慧2.0時代有了一定的認識。研究人工智慧的發展不僅需要電腦科學,還需要心理學、神經學等學科的支撐。只有多學科共同作用,才能更好地模擬人類的智慧模式。浙大的吳飛老師在介紹人工智慧2.0時如是說,人工智慧所面臨的7個問題有:1.Automatic Computers;2.How Can a Computer be Programmed to Use aLanguage;3.Neuron Nets;4.Theory of the size of a Calculation;5.Self-improvement; 6.Ab-stractions(intuition);7.Randomnessand Creativity.現在的人工智慧距離強人工智慧還有一段距離,因為泛化效能還有待提高,需要從資料和經驗中提高機器的學習能力。人工智慧的發展需要從人類自身的發展規律獲得思路,從而實現混合增強人工智慧的願景,達到科幻電影里人機結合的超人類智慧體。