興趣學習: 餘弦定理的應用&nb…

阿新 • • 發佈：2019-01-04

新聞的分類, 把相識的新聞放在同一類中, 把新聞的文字變成一組可以計算的數字, 提出一個概念
單文字詞彙頻率/逆文字頻率值TF-IDF.
(
TF-IDF:
一次是TF: 詞頻, 一詞語在文字出現的次數除以該文字的總詞數, 例如: "我們"出現了3次, 一共有100個語數. TF = 3/100 = 0.03;
DF: 檔案頻率, 一詞在多少份檔案出現過的次數/總檔案數. 例如: “我們”出現在1000份檔案中, 一共有
10 000 000份檔案, DF = 1000/ 10 000 000 = 0.0001, 那麼IDF = log(10 000 000/ 1000) = 4
TF-IDF = 0.03*4 = 0.12
)
我們現在舉一個例子, 在搜尋過程中關鍵字k1, k2, k3相關搜尋, 我們知道每一個ki關鍵字是具有不同
的權重的, 那麼這個權重用什麼來表示呢? 顯然, 用TF-IDF來表示, k1,k2,k3的搜尋就應該根據下面式子:
TF1*IDF1 + TF2*IDF2 + TF3*IDF3.
一篇文章裡面會出現許許多多的詞彙, k1, k2, k3, k4,...,kn, 並且每一個詞都會有一個TF-IDF值相對
應, 那麼我們看作這篇文章有時一個n維的向量, 有這樣的關係(k1, TF-IDF1), (k2, TF-IDF2), ....; 這裡
反映了一篇文章裡面有n維向量表示它的特徵, 當然如果兩篇文章的主題內容相同的話, 它們用的詞會相識, 這樣可以判斷兩篇文章是否接近.
那麼怎麼計算它們的相識度呢? 一個初中就學到的-- 餘弦定理. cosA = (b^2+c^2 - a^2)/(2*b*c);
用向量表示: cosA = <b,c>/(|b| * |c|); 我們知道兩文章都有相應的特徵向量, x1, x2, x3, ...., xn

興趣學習: 餘弦定理的應用&nb…

興趣學習: 餘弦定理的應用&nb…

Polya定理應用實例

斯坦福2014機器學習筆記七----應用機器學習的建議

Orleans學習總結(六)--應用篇

學習筆記: 反射應用、原理，完成擴展，emit動態代碼

貝葉斯在機器學習中的應用（一）

吳恩達機器學習筆記 —— 19 應用舉例：照片OCR（光學字符識別）

吳恩達機器學習筆記 —— 11 應用機器學習的建議

新手學習Linux——NFS應用場景及環境搭建

算法學習——二項式定理

【遷移學習】簡述遷移學習在深度學習中的應用

機器學習在工業應用中的新思考

機器學習（四）機器學習與深度學習的實際應用整理

python學習 - Django web應用開發入門

JDBC學習與模式應用[20181107]

記錄Python學習之路----------------應用工具

機器學習該如何應用到量化投資系列（三）

機器學習該如何應用到量化投資系列（二）

唯一分解定理應用

唯一分解定理應用+組合數學

興趣學習: 餘弦定理的應用&nb…

相關推薦