機器學習+特徵工程vs深度學習—如何選擇
阿新 • • 發佈:2018-12-13
對於資料探勘和處理類的問題,使用一般的機器學習方法,需要提前做大量的特徵工程工作,而且特徵工程的好壞會在很大程度上決定最後效果的優劣(也就是常說的一句話:資料和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已)。
使用深度學習的話,特徵工程就沒那麼重要了,特徵只需要做些預處理就可以了,因為它可以自動完成傳統機器學習演算法中需要特徵工程才能實現的任務,特別是在影象和聲音資料的處理中更是如此,但模型結構會比較複雜,訓練較為麻煩。另一個方面,雖然深度學習讓我們可以省去特徵工程這一較為繁瑣的過程,但也讓我們失去了對特徵的認識,如特徵的重要性等
如何選擇或衡量這兩種方法:
第一看資料量,比如訓練資料量達到百萬以上,深度學習的方法會比較有優勢。如果樣本集不是大樣本,那麼特徵工程加傳統的機器學習方法使用起來泛化能力會更好。
第二看是否需要對結果有較強的解釋性和可調節性,解釋性是說我們能夠了解到產生該輸出結果的原因,這樣我們能夠知道特徵的重要程度,並在出錯時能夠對錯誤原因進行分析。可調節性是指在出錯或有特徵的增刪時,能夠方便的對原模型進行修正以滿足新的要求。在這一方面,一般的機器學習方法有一定的優勢。
各自的優勢領域:
深度學習:影象處理,自然語言處理等,因為影象、語言、文字都較難進行特徵工程,交給深度學習是一個很好的選擇。
機器學習:金融風控,量化分析,推薦系統,廣告預測等,因為需要較好的可解釋性,會更多的採用傳統機器學習方法。
以上的領域,機器學習和深度學習都可以做,但因為各自的特點和要求,因此會有相對優勢的偏向。
另外,詳細瞭解特徵工程這裡推薦一位博主的部落格,解釋的非常詳細: