1. 程式人生 > >餘弦定理和新聞的分類(數學之美)

餘弦定理和新聞的分類(數學之美)

2006年7月20日 上午 10:12:00
發表者:吳軍,Google 研究員

餘弦定理和新聞的分類似乎是兩件八杆子打不著的事,但是它們確有緊密的聯絡。具體說,新聞的分類很大程度上依靠餘弦定理。

Google 的新聞是自動分類和整理的。所謂新聞的分類無非是要把相似的新聞放到一類中。計算機其實讀不懂新聞,它只能快速計算。這就要求我們設計一個演算法來算出任意兩篇新聞的相似性。為了做到這一點,我們需要想辦法用一組數字來描述一篇新聞。

我們來看看怎樣找一組數字,或者說一個向量來描述一篇新聞。回憶一下我們在“如何度量網頁相關性”一文中介紹的TF/IDF 的概念。對於一篇新聞中的所有實詞,我們可以計算出它們的單文字詞彙頻率/逆文字頻率值(TF/IDF)。不難想象,和新聞主題有關的那些實詞頻率高,TF/IDF 值很大。我們按照這些實詞在詞彙表的位置對它們的 TF/IDF 值排序。比如,詞彙表有六萬四千個詞,分別為

  1. 單詞編號漢字詞
  2. ------------------
  3. 1
  4. 2
  5. 3阿斗
  6. 4阿姨
  7. ...
  8. 789服裝
  9. ....
  10. 64000做作

在一篇新聞中,這 64,000 個詞的 TF/IDF 值分別為

  1. 單詞編號 TF/IDF
  2. ==============
  3. 10
  4. 20.0034
  5. 30
  6. 40.00052
  7. 50
  8. ...
  9. 7890.034
  10. ...
  11. 640000.075

如果單詞表中的某個次在新聞中沒有出現,對應的值為零,那麼這 64,000 個數,組成一個64,000維的向量。我們就用這個向量來代表這篇新聞,併成為新聞的特徵向量。如果兩篇新聞的特徵向量相近,則對應的新聞內容相似,它們應當歸在一類,反之亦然。

學過向量代數的人都知道,向量實際上是多維空間中有方向的線段。如果兩個向量的方向一致,即夾角接近零,那麼這兩個向量就相近。而要確定兩個向量方向是否一致,這就要用到餘弦定理計算向量的夾角了。

餘弦定理對我們每個人都不陌生,它描述了三角形中任何一個夾角和三個邊的關係,換句話說,給定三角形的三條邊,我們可以用餘弦定理求出三角形各個角的角度。假定三角形的三條邊為 a, b 和 c,對應的三個角為 A, B 和 C,那麼角 A 的餘弦 --

cosA

如果我們將三角形的兩邊 b 和 c 看成是兩個向量,那麼上述公式等價於

cosa

其中分母表示兩個向量 b 和 c 的長度,分子表示兩個向量的內積。舉一個具體的例子,假如新聞 X 和新聞 Y 對應向量分別是
x1,x2,...,x64000 和 y1,y2,...,y64000,
那麼它們夾角的餘弦等於,

clip

當兩條新聞向量夾角的餘弦等於一時,這兩條新聞完全重複(用這個辦法可以刪除重複的網頁);當夾角的餘弦接近於一時,兩條新聞相似,從而可以歸成一類;夾角的餘弦越小,兩條新聞越不相關。

clip04

轉載:

相關推薦

餘弦定理新聞的分類(數學)

2006年7月20日 上午 10:12:00發表者:吳軍,Google 研究員 餘弦定理和新聞的分類似乎是兩件八杆子打不著的事,但是它們確有緊密的聯絡。具體說,新聞的分類很大程度上依靠餘弦定理。 Google 的新聞是自動分類和整理的。所謂新聞的分類無非是要把相似的新聞放到一類中。計算機其實讀不懂新聞,它

數學餘弦定理新聞分類

新聞特徵向量: 和前面一樣,顯然衡量兩個新聞的相似性要根據新聞中的詞的相似性。如果兩個新聞中出現相同的詞較大,相似的可能性就較大。當然這其中的類似於“的”的詞應該佔據較小權重。這就和我們前面提到的度量關鍵詞和網頁相關性問題非常相似。TF-IDF應該是個不錯的演算法。 我們

數學》第15章 矩陣運算文字處理中的兩個分類問題

1 文字和詞彙的矩陣    在自然語言處理中,最常見的兩個分類問題分別是:將文字按主題歸類(比如將所有介紹奧運會的新聞歸到體育類)和將詞彙表中的字詞按意思歸類(比如將各種運動的專案名稱歸成體育一類)。        新聞分類乃至各種分類問題其實是一個聚類問題,關鍵是計算兩篇新

數學(吳軍著)學習總結經典摘抄

語音識別 用戶輸入 問題 font 客戶 連接 進行 聯系 -m 第1章 語言和文字 VS數字和信息 1.不同的文明,由於地域的原因。歷史上相互隔絕。便會有不同的文字。隨著文明的融合與沖突,不同文明下的人們須要交流,或者說通信,那麽翻譯的需求便產生了。翻譯這件事之所

數學讀書筆記——自然語言處理教父他的弟子們

自然語言處理 jpg alt 自然 .cn 讀書筆記 bsp blog 處理 數學之美讀書筆記——自然語言處理教父和他的弟子們

數學》——維特比他維特比算法

數學 模型 狀態 inf 一個 alt 技術 劃算 spa 維特比乍法是一個特殊但應用最廣的動態規劃算法,可以解決任何一個圖中的最短路徑問題。 這個算法是針對一個特殊的圖——籬笆網絡的有向圖的最短路徑提出的。 這個算法之所以重要,是因為凡是使用隱含馬爾科夫模型描述的問題都可

數學》第11章—如何確定網頁查詢的相關性(TF-IDF演算法)

文章目錄 如何查詢關於“原子能的應用”的網頁? 大致思路 問題描述 解決過程 一、使用“總詞頻” 二、加入IDF權重 三、IDF概念的理論支

數學:馬爾科夫鏈的擴充套件-貝葉斯網路 詞分類

前面介紹的馬爾科夫鏈是一種狀態序列,但在實際中,各個事物之間不僅使用鏈序列起來的,而是互相交叉,錯綜複雜。因此通過各個事物之間的聯絡,可以將馬爾科夫鏈推廣至圖論中。 沒想到貝葉斯網路還可以用於詞分類。在前面我們介紹到通過使用SVD可以對文字進行分類,如果把文字和關鍵詞的

數學系列六 -- 圖論網路爬蟲 (Web Crawlers)

轉載自:https://www.cnblogs.com/KevinYang/archive/2009/02/01/1381788.html 2006年5月15日 上午 07:15:00 發表者: 吳軍,Google 研究員 [離散數學是當代數學的一個重要分支,也是電腦科學的數學基礎。

數學——google大腦人工神經網路

人工神經網路可用於解決:分類問題。 人工神經網路設計: 結構(網路分幾層,每層幾個節點,節點之間如何連線) 非線性函式f的設計,常用指數函式。 人工神經網路的訓練 1.監督訓練 - 假設成本函式C:訓練的輸出值與實際輸出值的差距

數學》讀書筆記知識點總結

文字和數字的起源 很久以前人類以不同的叫聲表示不同的資訊,達到彼此交流的目的,當所要表達的資訊太多時,叫聲已經不夠用了,於是文字產生了。 文字:知道“羅塞塔”石碑的典故。 資訊冗餘的重要性:當石碑經歷風吹日晒,一部分文字被腐蝕掉時,還有另一部分重複的文字作為備份,可以還原

數學 系列八 賈里尼克的故事現代語言處理

發表者:Google 研究員,吳軍 讀者也許注意到了,我們在前面的系列中多次提到了賈里尼克這個名字。事實上,現代語音識別和自然語言處理確實是和它的名字是緊密聯絡在一起的。我想在這回的系列裡,介紹賈里尼克本人。在這裡我不想列舉他的貢獻,而想講一講他作為一個普普通通的人的故事。這些事要麼是我親身經歷的,要麼是

數學 系列九 如何確定網頁查詢的相關性

發表者:吳軍,Google 研究員 [我們已經談過了如何自動下載網頁、如何建立索引、如何衡量網頁的質量(Page Rank)。我們今天談談如何確定一個網頁和某個查詢的相關性。瞭解了這四個方面,一個有一定程式設計基礎的讀者應該可以寫一個簡單的搜尋引擎了,比如為您所在的學校或院系建立一個小的搜尋引擎。]我們還

數學 系列十 有限狀態機地址識別

地址的識別和分析是本地搜尋必不可少的技術,儘管有許多識別和分析地址的方法,最有效的是有限狀態機。一個有限狀態機是一個特殊的有向圖(參見有關圖論的系列),它包括一些狀態(節點)和連線這些狀態的有向弧。下圖是一個識別中國地址的有限狀態機的簡單的例子。 每一個有限狀態機都有一個啟始狀態和一個終止狀態和若干中間狀態

數學 系列六 圖論網路爬蟲 (Web Crawlers)

發表者: 吳軍,Google 研究員 [離散數學是當代數學的一個重要分支,也是電腦科學的數學基礎。它包括數理邏輯、集合論、圖論和近世代數四個分支。數理邏輯基於布林運算,我們已經介紹過了。這裡我們介紹圖論和網際網路自動下載工具網路爬蟲 (Web Crawlers) 之間的關係。順便提一句,我們用 Googl

數學》--第一章:文字語言 vs 數字信息

數學之美 png 利用 記錄 image math 解碼 進制 ogr PDF下載 第一章 文字和語言 vs 數字和信息 數字、文字和自然語言一樣,都是信息的載體,它們之間原本有著天然的聯系。語言和數學的產生都是為了同一個目的—記錄和傳播信息。但是,直到半個多世紀前香農博士

讀《數學》第三章 統計語言模型

其它 bigram 利用 理解 googl track 推斷 art google 自然語言從產生開始。逐漸演變為一種基於上下文相關的信息表達和傳遞方式,在計算機處理自然語言時,一個最主要的問題就是為自然語言上下文相關的特性建立數學模型,叫做統計語言模型(Statist

數學 (第二版) pdf

學院 pagerank 部分 廣電總局 創始人 智能 inter link cor 下載地址:網盤下載 內容簡介 · · · · · ·幾年前,“數學之美”系列文章原刊載於谷歌黑板報,獲得上百萬次點擊,得到讀者高度評價。讀者說,讀了“數學之美”,才發現大學時學的數學知

數學》讀書記錄【思維導圖記錄】:第四章,談談中文分詞

post IT .cn splay top style title mage blog 《數學之美》讀書記錄【思維導圖記錄】:第四章,談談中文分詞

數學筆記】自然語言處理部分(一).md

strip BE 模擬 ges arr 實驗 語句 次數 而不是 文字、數字、語言 、信息 數字、文字和自然語言一樣,都是信息的載體,他們的產生都是為了記錄和傳播信息。 但是貌似數學與語言學的關系不大,在很長一段時間內,數學主要用於天文學、力學。 本章,我們將回顧一下信息時