1. 程式人生 > >無監督特徵學習(半監督學習+自學習)

無監督特徵學習(半監督學習+自學習)


人們總是可以嘗試獲取更多的已標註資料,但是這樣做成本往往很高。例如研究人員已經花了相當的精力在使用類似 AMT(Amazon Mechanical Turk) 這樣的工具上,以期獲取更大的訓練資料集。相比大量研究人員通過手工方式構建特徵,用眾包的方式讓多人手工標資料是一個進步,但是我們可以做得更好。具體的說,如果演算法能夠從未標註資料中學習,那麼我們就可以輕易地獲取大量無標註資料,並從中學習。自學習和無監督特徵學習就是這種的演算法。儘管一個單一的未標註樣本蘊含的資訊比一個已標註的樣本要少,但是如果能獲取大量無標註資料(比如從網際網路上下載隨機的、無標註的影象、音訊剪輯或者是文字),並且演算法能夠有效的利用它們,那麼相比大規模的手工構建特徵和標資料,演算法將會取得更好的效能。