1. 程式人生 > >TF-IDF存在的問題及其改進

TF-IDF存在的問題及其改進

一、問題

        在本質上IDF是一種試圖抑制噪音的加權,並且單純地認為文字頻率小的單詞就越重要,文字頻率大的單詞就越無用。這對於大部分文字資訊,並不是完全正確的。IDF的簡單結構並不能使提取的關鍵詞,十分有效地反映單詞的重要程度和特徵詞的分佈情況,使其無法很好地完成對權值調整的功能。尤其是在同類語料庫中,這一方法有很大弊端,往往一些同類文字的關鍵詞被掩蓋。例如:語料庫D中教育類文章偏多,而文字j是一篇屬於教育類的文章,那麼教育類相關的詞語的IDF值將會偏小,使提取文字關鍵詞的召回率更低。

二、改進 TF-IWF

TF不變。IWF是文件所有詞語詞頻之和/該單詞詞頻之和。