機器學習之資料清理經驗
阿新 • • 發佈:2019-01-24
文字類資料,尤其二分類,如果正反比懸殊(超過1:10),反例極容易出現包含正例的噪聲(人工標註準確率95%)
1.這時,首先去除反例中和正例完全相同的誤分類(比如新聞,就是標題;聊天資料就是去掉不可見字元後的文字)
2.視資料質量,也可以用一些高閾值的相似性比較方法,比如傑卡德,餘弦,編輯距離等,再去除一部分噪聲
3.訓練好的分類器,在正例分類器中,按分類器的分值進行排序,頭部的“誤召回”通常是準確的正例識別,只是被人工標註誤分為反例
下圖是一張用fasttext做的二分類,識別為“正例”的資料隨閾值變化分佈。橫軸為歸一化的分值從大到小(Max=0),縱軸為閾值不斷變小,召回的”正例”中正反例的數量變化,其中出現在頭部區域,即閾值取較大數值時,依然“誤分”的反例,極大概率是噪聲(正例),可以人工針對進行清理。
4.同時上面的分類器,可以針對正負樣本,哪一種質量更高,反過來對另一個類別有一定資料傾斜(比如由1:1配平,改為1;5,1:10)進行訓練,那麼高質量資料的是高召回,餘下的誤識別減少,這種情況下依然分類到正例的,尤其是頭部區域,更大概率是噪聲。