《數學之美》第15章矩陣運算和文字處理中的兩個分類問題

阿新 • • 發佈：2019-02-12

1 文字和詞彙的矩陣

在自然語言處理中，最常見的兩個分類問題分別是：將文字按主題歸類（比如將所有介紹奧運會的新聞歸到體育類）和將詞彙表中的字詞按意思歸類（比如將各種運動的專案名稱歸成體育一類）。

新聞分類乃至各種分類問題其實是一個聚類問題，關鍵是計算兩篇新聞的相似度。為了完成這個過程，我們要將新聞變成代表它們內容的實詞，然後在變成一組數，具體說是向量，最後求出這兩個問題的夾角。

奇異值分解（Singular Value Decomposition，簡稱 SVD），一次能把所有的新聞相關性計算出來。

在矩陣A中，每一行對應一篇文章，每一列對應一個詞。其中，第 i 行、第 j 列的元素，是字典中第 j 個詞在第 i 篇文章中出現的加權詞頻（比如用詞的TF-IDF值）。共5000億個元素。

奇異值分解，就是把大矩陣分解成三個小矩陣相乘。共1.5億個元素，不到原來的三千分之一。

原書有點問題，還沒得到證實：

矩陣X是對文字的分類結果，每一行對應一篇文字，每一列對應一個主題，這一行中每個元素表示這篇文件在不同主題中的相關性。

中間矩陣B表示文章的類和詞的類之間的相關性。

矩陣Y是對詞進行分類的一個結果，它的每一列表示一個詞，每一行表示一個語義相近的詞類，或者簡稱為語義類。這一列的每一個非零元素表示這個詞在每個語義類中的重要性（或者說相關性），數值越大越相關。

因此，只要對關聯矩陣A進行一次奇異值分解，就可以同時完成近義詞分類和文章的分類。另外，還能得到每個主題和每個詞的語義類之間的相關性。

2 奇異值分解的方法和應用場景

首先，將矩陣A變換成一個雙對角矩陣。

第二步，將雙對角矩陣變換成奇異值分解的三個矩陣。

《數學之美》第15章矩陣運算和文字處理中的兩個分類問題

1 文字和詞彙的矩陣在自然語言處理中，最常見的兩個分類問題分別是：將文字按主題歸類（比如將所有介紹奧運會的新聞歸到體育類）和將詞彙表中的字詞按意思歸類（比如將各種運動的專案名稱歸成體育一類）。新聞分類乃至各種分類問題其實是一個聚類問題，關鍵是計算兩篇新

數學之美第3章統計語言模型

語料原理上越多越好，但是要把握好一個度的問題比如機器翻譯中的雙語預料就比較少的，還有就是有很多資料都有噪聲和錯誤的，訓練語料的噪聲高低也會對模型的效果產生一定的影響，因此在訓練資料的時候通常會對訓練資料進行預處理，一般情況下，少量的隨機噪聲清理的成本非常高，通常就不做處理，還有就是有些噪聲處理的太乾淨反而是不

數學之美第2章自然語言處理-從規則到統計

2，如果僅僅使用文法規則就想覆蓋哪怕是20%真是的語句，文法規則的數量至少也要幾萬條，而且還要說明各個規則特定的使用環境，也就說你能考好資料結構期末試卷，但是換成考研的試卷你就考不好了，換成軟體工程裡的資料結構你照樣考不好，也就是說呢，你永遠也窮舉不完的。

《數學之美》——第二章個人筆記

term spa 高級程序 chm 出現信息 ont 飛機第二章自然語言處理——從規則到統計這一章開頭這句話：字母，文字，數字是信息編碼的不同單位。任何一種語言都是一種編碼的方式，而語言的語法規則是編解碼的算法。我們表達一個意思要通過語言表達出來，就是用

《數學之美》——第一章個人筆記

沒有歧義移動互聯網 style 情況組成進制 LV 讓我　　數學之美第一章文字和語言 vs 數字和信息 1 信息通信的原理就是這三個步驟，本質上是一致的，只不過今天的實現形態發生了變化。更技

MATLAB編程與應用系列-第3章矩陣運算（2）

元素其中特征值 pad 返回值共軛系列 ade 就是本系列教程來源於出版設計《基於MATLAB編程基礎與典型應用書籍》，如涉及版權問題，請聯系：[email protected]。出版社：人民郵電出版社，頁數：525。本系列教程目前基於MATLABR2006a

MATLAB編程與應用系列-第3章矩陣運算（1）

方程組效率輸入上進算數有一個大於矩陣的乘法相同本系列教程來源於出版設計《基於MATLAB編程基礎與典型應用書籍》，如涉及版權問題，請聯系：[email protected]。出版社：人民郵電出版社，頁數：525。本系列教程目前基於MATLABR2006

架構師必看-架構之美第14章-兩個系統的故事：混亂大都市(一)

你們修築、修築，預備道路，將絆腳石從我百姓的路中除掉。 —《以賽亞書》第57章14節我們要看的第一個軟體系統名為“混亂大都市”。

《數學之美》--第一章：文字和語言 vs 數字和信息

數學之美 png 利用記錄 image math 解碼進制 ogr PDF下載第一章文字和語言 vs 數字和信息數字、文字和自然語言一樣，都是信息的載體，它們之間原本有著天然的聯系。語言和數學的產生都是為了同一個目的—記錄和傳播信息。但是，直到半個多世紀前香農博士

讀構建之法第五章：團隊和流程

min 這樣的程序員希望成員 eat 貢獻核心不能團隊有一致的集體目標，團隊要一起完成這目標。一個團隊的成員不一定要同時工作，例如接力賽跑。團隊成員有各自的分工，互相依賴合作，共同完成任務。軟件團隊有各種形式，適用於不同的人員和需求。基於直覺形成的團隊模式未

第15章WEB15-AJAX和JQuery案例篇

AJAX和JQuery案例篇 javaweb 今日任務? 使用AJAX完成用戶名的異步校驗? 使用JQuery完成用戶名異步校驗? 使用JQuery完成商品信息模糊顯示? 使用JQuery完成省市聯動效果返回XML? 使用JQuery完成省市聯動效果返回JSON教學導航教學目標了解AJAX的基本使用掌

LDD3 第15章記憶體對映和DMA

本章內容分為三個部分：第一部分講述了mmap系統呼叫的實現過程。將裝置記憶體直接對映到使用者程序的地址空間，儘管不是所有裝置都需要，但是能顯著的提高裝置效能。如何跨越邊界直接訪問使用者空間的記憶體頁，一些相關的驅動程式需要這種能力。在很多情況下，核心執行了該種對映，而無需驅動程式的參與。

數學之美系列九如何確定網頁和查詢的相關性

發表者：吳軍，Google 研究員 [我們已經談過了如何自動下載網頁、如何建立索引、如何衡量網頁的質量(Page Rank)。我們今天談談如何確定一個網頁和某個查詢的相關性。瞭解了這四個方面，一個有一定程式設計基礎的讀者應該可以寫一個簡單的搜尋引擎了，比如為您所在的學校或院系建立一個小的搜尋引擎。]我們還

數學之美系列十有限狀態機和地址識別

地址的識別和分析是本地搜尋必不可少的技術，儘管有許多識別和分析地址的方法，最有效的是有限狀態機。一個有限狀態機是一個特殊的有向圖（參見有關圖論的系列），它包括一些狀態（節點）和連線這些狀態的有向弧。下圖是一個識別中國地址的有限狀態機的簡單的例子。每一個有限狀態機都有一個啟始狀態和一個終止狀態和若干中間狀態