K一最鄰近演算法在文字自動分類中的應用
一種常用的基於內容的分類演算法-----k--最鄰近演算法(KNN),利用KNN演算法並且結合結合改進的詞特徵權值計算方法和文字相似度的計算方法完成了文字的自動分類.通過KNN方法分類之後的結果的查準率、查全率得以明顯提高.
傳統的分類方法是使用人工對文字進行分類,並加以組織和整理,以方便人們瀏覽.但是,這種人工分類的做法往往需要具有專業知識的人員才能勝任,而且資訊資料量的爆炸性增長也使得傳統的人工分類變得不切實際,因此使用計算機進行文字的自動分類成為必然.其中K一最鄰近演算法(KNN)和SVM是文字自動分類的兩種較好的方法.KNN方法是一種非引數化方法,適合於概率密度函式的引數形式未知的場合.
目前常用的文字自動分類技術有基於統計學的分類技術,包括貝葉斯法、K一鄰近演算法等;基於機器學習的分類技術,包括決策樹和規則歸納法等;基於神經網路的分類技術,包括BP演算法等.
文字自動分類通常由如下幾步完成:①文字資訊的預處理,主要是針對文字的分詞處理;②計算文字的特徵向量,根據文中每個詞在文字中的不同權重,生產文字的特徵向量;③建立訓練語料庫,通過聚類處理和人工干預等方法建立訓練語料庫;④分類處理,計算待分類文件與每個訓練文字之間的相似度,確定文字所屬的類別;⑤對分類結果進行評價.評估文字自動分類優劣指標主要有兩種:查準率和查全率.查準率是所有判斷的文字中與人工分類結果吻合的文字所佔的比率(查準率=分類的正確文字數÷實際分類的文字數).查全率是人工分類結果應有的文字中與分類系統吻合的文字所佔的比率(查全率=分類的正確文字數÷應有的文字數).查準率和查全率反映了分類質量的兩個不同方面,兩者應該綜合考慮,不可偏廢.因此,存在一種新的評估指標F1測試值(F1測試值=查準率X查全率×2÷(查準率+查全率)).
K一最鄰近演算法是一種基於向量空間模型的文件分類方法:(1)對於一個測試文字,計算它與訓練樣本集中每個文字的文字相似度,根據文字相似度找出K個最相似的訓練文字.(2)然後通過判斷這K個訓練文字的類別權值,得出測試文字所屬的類別.