多視角半監督學習:從文字資料中得到不同視角
阿新 • • 發佈:2019-02-10
摘要:
監督機器學習方法通常要求大量有標記資料已獲得高的準確性。本文是講述對於文字分類人任務包含線上資料來源,例如網頁頁面,email和科學文章。半監督學習代表了監督和無監督學習的折中。多視角半監督學習要求一個每個樣本的描述被劃分到至少兩個不同的視角。本文,我們提出一種簡單的方法杜宇文字預處理為了簡單構造兩種不同視角由多視角學習演算法。
1 簡介
多視角學習共同訓練方法在本文中應用到資料集,具有一個將特徵自然的劃分到兩個不相交集。換句話說,每個樣本由兩個不相交視角來描述,然而每個視角都足夠推導分類器。Afterward,一個監督學習系統使用每個視角分別訓練,產出兩個不同分類器。這些分類器被用到標記和未標記樣本,對每個分類分配一個置信度。未標記樣本分類有一個高的置信度將被用作擴大有標記樣本集。這個過程重複來增加有標記集合知道達到停止標準。
本文,我們提出和評估一個簡單方法來得到兩個不相交視角使用共同訓練,對於文字基。
2 相關工作
半監督學習可以被分成單視角和多視角。在單視角場景,演算法能得到領域特徵的完整集合。在多視角設定中,領域特徵只呈現在不同子集(視角)對於足以學習目標概念。單視角演算法可以劃分成直推醒,期望最大變式,基於演算法的背景知識和聚類演算法。多視角演算法是基於假設視角都是不相關和相容。若所有樣本在每個視角中都能由目標概念所標記,那麼資料集是相容的。兩個不相關的視角當給定任何樣本的標籤,它在每個視角中的描述是獨立的。
共同訓練引入多視角學習的理論基礎,其他多視角學習被提出:例如CO-EM,結合了EM和co-training.Co-testing 結合了啟用和半監督學習,co-emt是co-testing 和co-EM的拓展。