線性代數和概率論——機器學習基礎
阿新 • • 發佈:2020-03-24
目錄
- 一、線性代數
- 常見概念
- 線性變換
- 二、概率論
- 兩大學派
- 兩種概率估計方法
- 舉例說明
- 兩種隨機變數
一、線性代數
萬事萬物都可以被抽象成某些特徵的組合,線性代數的本質是將具體事物抽象為數學物件,描述其靜態和動態的特徵。
常見概念
- 標量(scalar)
一個標量 a 可以是整數、實數或複數 - 向量(vector)
多個標量 a1,a2,⋯,an 按一定順序組成一個序列。通常用一維陣列表示,例如語音訊號 - 矩陣(matrix)
矩陣包含向量,一個m*n的矩陣,可以看成是由n個m維的列向量構成,也可以看成是由m個n維的行向量構成。通過用二維陣列表示,例如灰度影象 - 張量(tensor)
張量就是高階的矩陣,如果把三階魔方的每一個小方塊看作一個數,它就是個 3×3×3 的張量,3×3 的矩陣則恰是這個魔方的一個面,也就是張量的一個切片。通過用三維乃至更高維度的陣列表示,例如RGB影象 - 範數(norm)
對單個向量大小的度量,描述的是向量自身的性質,將向量對映為一個非負的數值。 - 內積(inner product)
兩個向量之間的相對位置,即向量之間的夾角。計算的則是兩個向量之間的關係 - 線性空間(linear space)
一個集合,元素是具有相同維數的向量(可以是有限個或無限個), 並且定義了加法和數乘等結構化的運算 - 內積空間(inner product space)
定義了內積運算的線性空間 - 正交基(orthogonal basis)
在內積空間中,一組兩兩正交的向量。正交基的作用就是給內積空間定義出經緯度。⼀旦描述內積空間的正交基確定了,向量和點之間的對應關係也就隨之確定。 - 標準正交基(orthonormal basis)
正交基中基向量的範數單位長度都是1
線性變換
線性變換描述了向量或者作為參考系的座標系的變化,可以用矩陣表示;
線性空間中,變化的實現有兩種方式:
- 點的變化
Ax=y
表示向量 x 經過矩陣 A 所描述的變換,變成了向量 y - 參考系的變化
描述矩陣的⼀對重要引數是特徵值λ和特徵向量x。
對於給定的矩陣 A,假設其特徵值為λ,特徵向量為 x,則它們之間的關係如下:
Ax=λx
矩陣的特徵和特徵向量描述了變化速度與方向。
把矩陣所代表的變化看作奔跑的人,那麼特徵值λ代表奔跑的速度,特徵向量x代表奔跑的方向。
更通俗的理解是:在空間裡將一個物體拉伸、旋轉到另外的一個形狀
二、概率論
同線性代數一樣,概率論也代表一種看待世界的方式,關注的焦點是生活中的不確定性和可能性。
概率論是線性代數之外,人工智慧的另一個理論基礎,多數機器學習模型採用的都是基於概率論的方法。
由於實際任務中可供使用的訓練資料有限,因而需要對概率分佈的引數進行估計,這也是機器學習的核心任務。
兩大學派
- 頻率學派(Frequentists)
頻率派認為引數是客觀存在,不會改變,雖然未知,但卻是固定值。只是觀察者的我們無從知曉,因此在計算具體事件的概率時,要先確定分佈的型別和引數,以此為基礎進行概率推演 - 貝葉斯學派(Bayesians)
貝葉斯派則認為引數是隨機值,固定的先驗分佈是不存在的。假設本身取決於觀察結果,資料的作用就是對假設做出不斷修正,使觀察者對概率的主觀認識更加接近客觀實際。
頻率派最常關心的是似然函式,而貝葉斯派最常關心的是後驗分佈。
兩種概率估計方法
- 極大似然估計法(maximum likelihood estimation)
思想是使訓練資料出現的概率最大化,依此確定概率分佈中的未知引數,估計出的概率分佈也就符合訓練訓練資料的分佈。
最大似然估計法估計引數時,只需要使用訓練資料 - 最大後驗概率法(maximum a posteriori estimation)
思想是根據訓練資料和已知的其他條件,使未知引數出現的可能性最大化,並選取最可能的未知引數取值作為估計值。
最大後驗概率法估計引數時,除了訓練資料外,還需要額外的資訊,也就是貝葉斯中的先驗概率
舉例說明
好學生和差學生打架
- 極大似然估計:老師認為肯定是差學生的錯,因為差學生愛惹事
- 最大後驗概率:老師如果知道優等生和差學生之間的過節(先驗資訊),把這些因素考慮進來,就不會簡單地認為是養生挑釁。
極大似然是尋找一組引數使得觀測資料出現的概率最大,最大後驗是尋找當前觀測資料下出現概率最大的一組引數。
兩種隨機變數
- 離散型隨機變數(discrete random variable)
在一定區間內取值有有限個或者可數個,例如某些地區人口的出生數 - 連續型隨機變數(continuous random variable)
在一定區間內變數取值有無限個,數值無法一一列舉出來,例如某些地區的房價