1. 程式人生 > >興趣學習: 餘弦定理的應用&nb…

興趣學習: 餘弦定理的應用&nb…

        新聞的分類, 把相識的新聞放在同一類中, 把新聞的文字變成一組可以計算的數字, 提出一個概念
    單文字詞彙頻率/逆文字頻率值TF-IDF.
(
TF-IDF:
     一次是TF: 詞頻, 一詞語在文字出現的次數除以該文字的總詞數, 例如: "我們"出現了3次, 一共有100個語數. TF = 3/100 = 0.03;
     DF: 檔案頻率, 一詞在多少份檔案出現過的次數/總檔案數. 例如: “我們”出現在1000份檔案中, 一共有
10 000 000份檔案,  DF = 1000/ 10 000 000 = 0.0001, 那麼IDF = log(10 000 000/ 1000) = 4
TF-IDF = 0.03*4 = 0.12
)
       我們現在舉一個例子, 在搜尋過程中關鍵字k1, k2, k3相關搜尋, 我們知道每一個ki關鍵字是具有不同
   的權重的, 那麼這個權重用什麼來表示呢? 顯然, 用TF-IDF來表示, k1,k2,k3的搜尋就應該根據下面式子:
   TF1*IDF1 + TF2*IDF2 + TF3*IDF3.
       一篇文章裡面會出現許許多多的詞彙, k1, k2, k3, k4,...,kn, 並且每一個詞都會有一個TF-IDF值相對
  應, 那麼我們看作這篇文章有時一個n維的向量, 有這樣的關係(k1, TF-IDF1), (k2, TF-IDF2), ....; 這裡
  反映了一篇文章裡面有n維向量表示它的特徵, 當然如果兩篇文章的主題內容相同的話, 它們用的詞會相識,     這樣可以判斷兩篇文章是否接近.
       那麼怎麼計算它們的相識度呢? 一個初中就學到的-- 餘弦定理. cosA = (b^2+c^2 - a^2)/(2*b*c);
   用向量表示: cosA = <b,c>/(|b| * |c|); 我們知道兩文章都有相應的特徵向量, x1, x2, x3, ...., xn