數學之美(吳軍著)學習總結和經典摘抄
第1章 語言和文字 VS數字和信息
1.不同的文明,由於地域的原因。歷史上相互隔絕。便會有不同的文字。隨著文明的融合與沖突,不同文明下的人們須要交流,或者說通信,那麽翻譯的需求便產生了。翻譯這件事之所以能達成。不過由於不同的文字系統在記錄信息的能力上是等價的。
(這個結論非常重要)進一步講。文字不過信息的載體,而並不是信息本身。
那麽不用文字,而用其他的載體(比方數字)能否夠存儲相同意義的信息呢?這個答案是肯定的,這也是我們今天現代通信的基礎。(page4)
2.羅塞塔石碑的兩點指導意義。1)信息冗余是信息安全的保障。 2)語言的數據。我們稱之為語料,尤其是雙語或者多語的對比語料對翻譯至關重要,它是我們從事機器翻譯研究的基礎。(page6)
第2章 自然語言處理---從規則到統計
1.基於統計的自然語言處理方法,在數學模型上和通信是相通的,甚至是同樣的。因此。在數學意義上自然語言處理又和語言的初衷--通信聯系在了一起。(page26) 2.自然語言在演變的過程中,產生了詞義和上下文相關的特性。因此,它的文法是上下文有關文法。而程序語言是我們人為設計的,為了便於計算機解碼的上下文無關文法,相比自然語言簡單的多。理解兩者的計算量不可同日而語。(page21)
第3章 統計語言模型
1.自然語言從它產生開始。逐漸演變成一種上下文相關的信息表達和傳遞的方式。因此讓計算機處理自然語言,一個主要的問題就是為自然語言這樣的上下文相關特性建立數學模型。
這個數學模型就是自然語言處理中常說的統計語言模型。它是今天全部自然語言處理的基礎。而且廣泛應用與機器翻譯、語音識別、印刷體和手寫體識別、拼寫糾錯、漢字輸入和文獻查詢(page27)。
2.統計模型:推斷一個句子是否合理,就看看它的可能性大小怎樣。至於可能性就用概率來衡量。這種方法更普通而嚴格的描寫敘述是:假定S表示某個有意義的句子,由一連串特定順序排列的詞w1,w2,...,wn組成,這裏n是句子的長度。如今。我們想知道S在文本中出現的可能性,也就是數學上所說的S的概率P(S)。(page28)
使用語言模型須要知道模型中全部的條件概率,我們稱之為模型的參數。通過對語料的統計,得到這些參數的過程稱作模型的訓練。(page33)
第4章 談談中文分詞
1.在第3章談到能夠利用統計語言模型進行自然語言處理,而這些語言模型是建立在詞的基礎之上的,由於詞是表達語義的最小單位。對於漢語,詞之間沒有明顯的分界符,因此須要對句子分詞。才幹做進一步的自然語言處理。(page41) 2.分詞器示意圖在page44,圖4.1. 3.中文分詞以統計語言模型為基礎,經過幾十年的發展和完好,今天基本上能夠看做一個已經解決的問題。不同的分詞器有好有壞。基本的區別在於:數據的使用和project實現的精度。(page48)
第5章 隱含馬爾可夫模型
1.隱含馬爾可夫模型是一個並不復雜的數學模型,到眼下為止,它一直被覺得是解決大多數自然語言處理問題最為高速、有效的方法。它成功地攻克了復雜的語音識別、機器翻譯等問題。
當我們看完這些復雜的問題是怎樣通過簡單的模型描寫敘述和解決時。會不得不由衷的感嘆數學模型之妙。
(page51)
2.隱含馬爾可夫模型的定義和圖示在page53和page54。 3.環繞著馬爾可夫模型有三個基本問題: (1).給定一個模型,怎樣計算某個特定的輸出序列的概率。(通過Forward-Backward算法解決)
(2).給定一個模型和某個特定的輸出序列,怎樣找到最可能產生這個輸出的狀態序列。(通過維特比算法解決) (3).給定足夠量的觀測數據,怎樣預計隱含馬爾科夫模型的參數。(通過鮑姆-韋爾奇算法解決)(page55)
4.隱含馬爾科夫模型最初應用與通信領域,繼而推廣到語音和語音處理中。成為連接自然語言處理和通信的橋梁。同一時候隱含馬爾科夫模型也是機器學習的主要工具之中的一個。和差點兒全部的機器學習的模型工具一樣。它須要一個訓練算法(鮑姆韋爾奇算法)和使用時的解碼算法(維特比算法),掌握了這兩類算法,就基本上能夠使用隱含馬爾科夫模型這個工具了。
(page58)
第6章 信息的度量和作用
1.香農在他的論文“通信的數學原理”。提出了信息熵(shang)的概念,解決的信息的度量問題,而且量化出信息的作用。(page59) 2. 一條信息的信息量和它的不確定性有著直接的關系。比方說,我們要搞清楚我們一無所知的事情,就須要了解大量的信息。所以,從這個角度來看,能夠覺得。信息量就等於不確定性的多少。(page59) 3.信息熵的公式在page60。公式6-1.信息熵一般用H表示,單位是比特。隨意一個隨機變量X。它的熵的定義例如以下:公式6-2。 變量的不確定性越大,熵也就越大。把它搞清楚須要的信息量也就越大。
(page61)
4.關於冗余度:假設一本書反復的內容非常多。它的信息量就小,冗余度就大。不同的語言冗余度區別非常大,而漢語在全部的語言中是冗余度較小的。(page61) 5.信息的作用 自古以來,信息和消除不確定性是相聯系的。信息是消除系統不確定性的唯一辦法。 一個事物內部存在著隨機性,也就是不確定性,假定為U,而從外部消除這個不確定性唯一的辦法是引入信息I,而引入的信息量取決於這個不確定性的大小,即I>U才行。當I<U時,這些信息能夠消除一部分不確定性,也就是說新的不確定性U‘=U=I。(page63)
6.網頁搜索本質就是從大量的網頁中,找到用戶輸入的搜索詞最相關的幾個網頁。網頁搜索本質也是利用信息消除不確定性的過程。假設提供的信息量只是多,比方搜索詞是經常使用的關鍵詞。諸如”中國“、”經濟“之類的,那麽會有非常多相關的結果,用戶可能還是無法選擇。這是正確的做法是挖掘新的隱含的信息,比方網頁本身的質量信息。假設這些信息還是不夠消除不確定性,最好還是再問問客戶(能否提供很多其它的信息)。這就是相關搜索的理論基礎。合理利用信息,而不是玩什麽公式和機器學習算法,是做好搜索的關鍵。(page63)
7.”相關“的信息也可以消除不確定性,為此。須要引入條件熵的概念(公式6-5)。概括:信息的作用在於消除不確定性,自然語言處理的大量問題就是尋找相關的信息。(page64) 8.互信息:這一概念作為對兩個隨機事件“相關性”的量化度量。機器翻譯中,最難的兩個問題之中的一個是詞義的二義性(還有一個是。語義的二義性吧)問題。
比方Bush一詞能夠使美國總統布什的名字,也能夠是灌木叢的意思。解決問題真正簡單卻很有用的方法是使用互信息。
詳細的解決方法大致例如以下:首先從大量文本中找出和總統布什一起出現的互信息最大的一些詞。比方總統。美國,國會,華盛頓等等,當然用相同的方法找出和灌木叢一起出現的互信息最大的詞,比方土壤、植物、野生等等。有了這兩類詞,在翻譯Bush時。看看上下文中哪類相關的詞多就能夠了。
(page67)
9.相對熵也是用來衡量相關性,但和變量的互信息不同,它用來衡量兩個取值為正數的函數的相似性。利用相對熵能夠得到信息檢索中最重要的一個概念:詞頻率-逆向文檔頻率。(page68)
10. 信息熵不僅是對信息的量化度量。並且是整個信息論的基礎。它對於通信、數據壓縮、自然語言處理都有非常強的指導意義。
信息熵的物理含義是對一個信息系統不確定性的度量,這一點上,它和熱力學中熵的概念同樣。由於後者是對於一個系統無序的度量。
數學之美(吳軍著)學習總結和經典摘抄