1. 程式人生 > >只有100個標記資料,如何精確分類400萬用戶評論?

只有100個標記資料,如何精確分類400萬用戶評論?

在本文中,我們將介紹自然語言處理(NLP)在遷移學習上的最新應用趨勢,並嘗試執行一個分類任務:使用一個數據集,其內容是亞馬遜網站上的購物評價,已按正面或負面評價分類。然後在你可以按照這裡的說明,用你自己的資料重新進行實驗。

383f2c0bc478c830fe8e9fbe9abdc5bc88b5bd18

遷移學習模型的思路是這樣的:既然中間層可以用來學習影象的一般知識,我們可以將其作為一個大的特徵化工具使用。下載一個預先訓練好的模型(模型已針對ImageNet任務訓練了數週時間),刪除網路的最後一層(完全連線層),新增我們選擇的分類器,執行適合我們的任務(如果任務是對貓和狗進行分類,就選擇二元分類器),最後僅對我們的分類層進行訓練。

由於我們使用的資料可能與之前訓練過的模型資料不同,我們也可以對上面的步驟進行微調,以在相當短的時間內對所有的層進行訓練。

除了能夠更快地進行訓練之外,遷移學習也是特別有趣的,僅在最後一層進行訓練,讓我們可以僅僅使用較少的標記資料,而對整個模型進行端對端訓練則需要龐大的資料集。標記資料的成本很高,在無需大型資料集的情況下建立高質量的模型是很可取的方法。

遷移學習NLP的尷尬

目前,深度學習在自然語言處理上的應用並沒有計算機視覺領域那麼成熟。在計算機視覺領域中,我們可以想象機器能夠學習識別邊緣、圓形、正方形等,然後利用這些知識去做其他事情,但這個過程對於文字資料而言並不簡單。

原文連結