命名實體識別競賽中的經驗過擬合
阿新 • • 發佈:2020-10-08
實體競賽最重要的是分數,而分數則對應著資料打標者當時對資料進行標註的心態。所以,有時候資料預處理的方法並不是理論上完美,實際就無敵的。因為打標者的心態不可知。
對於過長的文字,打標者的心態很可能是厭惡,那麼在進行實體識別這種繁瑣的人工標註過程中,他們可能只會看前半部分,把一些標籤撈出來,而當前這條資料的後面的幾個實體,因為在文字的最後面,有可能就草草標註了事。這樣就導致很多的錯誤實體存在於長文字的後半段。
這樣子,我們通過計算資訊熵的方法設定的動態回割方法,反而不夠小白直接截斷文字進行命名實體識別的成績高。
因為我們在保證長文字資訊最大程度不丟失的前提下,保留了過多標註者草草標註的錯誤標註實體,模型在學習的過程中偏向了錯誤標註。
這也就是經驗過擬合的由來,我們往往被過去的經驗所主導,不自覺地偏向了理論至上的一塊,反倒是忽略了現實中最重要的人為因素,而比賽的最終關鍵點就是去擬合人為因素造成的誤差。
有個成語叫“大道至簡”,最簡單的往往是最好的。