1. 程式人生 > >PRML讀書隨筆(1)

PRML讀書隨筆(1)

輸出 MF 包含 導致 其中 pan 長度 因此 練習

這一系列隨筆,是一個並沒有足夠數學基礎的人寫的——這註定會導致很多不足。但筆者也以為,能以這樣的身份去讀書,也是一個充滿挑戰和新奇的角度,說不定有一番別樣的收獲。



“……每個數字對應一個 28 × 28 像素的圖像,因此可以表示為一個由784個實數組成的向量 x 。目標是建立一個機器,能夠以這樣的向量 x 作為輸入,以數字0到9為輸出。”

  我雖然見過許多這種表述,但目前依然不能很好的適應。習慣上,我們都把x當成一個數值,一個標量(這個稱呼尚且陌生)——即使學習了向量和矩陣的知識,知道它們都可以用字母表示(矩陣是大寫字母)。在學習機器學習的過程中,這種對字母表示向量的直覺是理應盡早樹立的——如何才能有這種直覺?我所能想到的只有多練習,在草稿紙上隨便寫寫畫畫,比如……


技術分享圖片



“運行機器學習算法的結果可以被表示為一個函數 y(x) ,它以一個新的數字的圖像 x 為輸入,產生向量 y ,與目標向量的形式相同。函數 y(x) 的精確形式在訓練( training )階段被確定,這個階段也被稱為學習( learning )階段,以訓練數據為基礎。”

  引文中的“函數”,也是一個全新的概念。以往接觸的函數,都是以數為自變量——而這裏所說的函數,是以向量為自變量,所以嚴格地說這甚至不該叫“函數”(但是能怎樣呢?只能暫且這麽稱呼了)。並且“以向量為自變量”不同於“多元函數”,這裏的函數依然只有一個自變量,即使它們看起來完全等價——不過如果某個函數更進一步,把矩陣當做自變量,就無法與多元函數對應了。並且這裏的“函數”是一個抽象概念,它不僅僅是不能畫出圖像,它甚至沒有圖像,因為這裏的函數“還沒有確定”,用函數這一詞匯,僅僅是表示輸入和輸出直接存在唯一對應關系,然後為這個關系賦予一個名稱,看起來就像傳統的反比例函數或三角函數一樣——然而它僅僅表示一種對應關系【存在】。


對於大部分實際應用,原始輸入向量通常被預處理( pre-processed ),變換到新的變量空間。人們期望在新的變量空間中模式識別問題可以更容易地被解決。例如,在數字識別的問題中,數字的圖像通常被轉化縮放,使得每個數字能夠被包含到一個固定大小的盒子中。

  如果是說“對圖像的預處理”,那麽這無疑是形象而易於理解的;但為了有一種統一的說法,總結後的句子難免晦澀,如同著名的“幾何學是研究空間在變換群下不變性質的一門學科”(——埃爾朗根綱領,克萊因)。實際理解中,具體的例子幾乎是必要的,本書的作者為了解釋這一總結,也及早給出了例子。但總結也依然是必要的,如果只有例子,也許只有說話者知道其中所強調的共性(技術交流中這甚至是常見的)。——另外,這裏的“變換”也相當反直覺,函數給人的印象一直是“連續的”,“光滑的”,即使這是解析函數才有的性質,我們還是習慣把狄利克雷函數看做另類。當自變量成為了向量,連“輸入向量,輸出向量的長度”都可以算函數,此時要如何適應這些表述呢?這次我真的沒有辦法了,也許多見一些例子就好吧,雖然奇怪的函數可以有任意多種,總會遇到詭異的函數——不過假如用到的不多,靠經驗彌補直覺還是很有效的。


  先寫這麽多吧。這些是PRML的第一頁內容,的一小部分……


(2018-6-18 於地球)

PRML讀書隨筆(1)