1. 程式人生 > >資源|一文解讀合成數據在機器學習技術下的表現

資源|一文解讀合成數據在機器學習技術下的表現

想法

相比於數量有限的“有機”資料,我將分析、測評合成數據是否能實現改進。

動機

我對合成資料的有效性持懷疑態度——預測模型只能與用於訓練資料的資料集一樣好。這種懷疑論點燃了我內心的想法,即通過客觀調查來研究這些直覺。

需具備的知識

本文的讀者應該處於對機器學習相關理論理解的中間水平,並且應該已經熟悉以下主題以便充分理解本文:

  • 基本統計知識,例如“標準差”一詞的含義

  • 熟悉神經網路,SVM和決策樹(如果您只熟悉其中的一個或兩個,那可能就行了)

  • 瞭解基本的機器學習術語,例如“訓練/測試/驗證集”的含義

合成數據的背景

生成合成資料的兩種常用方法是:

  • 根據某些分佈或分佈集合繪製值

  • 個體為本模型的建模

在這項研究中,我們將檢查第一類。為了鞏固這個想法,讓我們從一個例子開始吧!

想象一下,在只考慮大小和體重的情況下,你試圖確定一隻動物是老鼠,青蛙還是鴿子。但你只有一個數據集,每種動物只有兩個資料。因此不幸的是,我們無法用如此小的資料集訓練出好的模型!

這個問題的答案是通過估計這些特徵的分佈來合成更多資料。讓我們從青蛙的例子開始

參考這篇維基百科的文章(只考慮成年青蛙):