【高等代數】6. 矩陣(1)
【高等代數】6. 矩陣(1)
目錄3.1 矩陣的代數運算
矩陣是線性代數研究的基本物件,按照矩陣的觀點,線性代數就是研究矩陣字啊各種意義下的分類問題及其標準形的理論。一般地,矩陣是由數域\(F\)上的\(m\times n\)個數\(a_{ij}\),\(i=1,\cdots,m\),\(n=1,\cdots,n\),按照順序排成一個\(m\)行\(n\)列的長方形表,記作矩陣\(A\),數域\(F\)上所有\(m\times n\)矩陣的集合記作\(F^{m\times n}\)。矩陣\(A\)的第\((i,j)\)
矩陣作為空間中的元素需定義運算,對\(F^{m\times n}\)上的兩個矩陣\(A=(a_{ij}),B=(b_{ij})\),如果對所有\(i,j\)都有\(a_{ij}=b_{ij}\),就稱\(A=B\)。定義矩陣的和\(A+B\)為\((a_{ij}+b_{ij})_{n\times n}\),即對應元素相加,顯然矩陣的和滿足:
-
\((A1)\)加法結合律:\((A+B)+C=A+(B+C)\)。
-
\((A2)\)加法交換律:\(A+B=B+A\)。
-
\((A3)\)零矩陣:存在所有係數都是\(0\)
-
\((A4)\)負矩陣:對任何矩陣\(A\),存在\(B\)使\(A+B=B+A=0\),記\(B=-A\)。
由負矩陣可引入矩陣減法:\(A-B=A+(-B)\),它與通常數的減法具有相同的性質。
對矩陣也可以如同向量一般定義數乘運算\(\lambda A=(\lambda a_{ij})_{m\times n}\),它滿足:
- \((M1)\)乘法結合律:\((\lambda \mu)A=\lambda(\mu A)\)。
- \((M2)\)單位元素:\(1A=A\)。
- \((D1)\)矩陣關於純量的分配率:\((\lambda+\mu)A=\lambda A+\mu A\)
- \((D2)\)純量關於矩陣的分配率:\(\lambda(A+B)=\lambda A+\lambda B\)。
從這裡已看出,\(F^{m\times n}\)完全具有\(F^{n}\)上的運算規律,它是一個推廣的向量空間。事實上,當\(m=1\)時,矩陣退化為\(1\)行\(n\)列的矩陣,即數域\(F^{n}\)上的\(n\)維列向量;當\(n=1\)時,矩陣退化為\(m\)行\(1\)列的矩陣,即數域\(F^{m}\)上的\(m\)維列向量。這說明\(F^{m\times n}\)是\(F^{n}\)的自然推廣。
與向量空間不同的是,矩陣空間具有乘法概念,這一概念並不在\(F^{m\times n}\)上封閉,也實際上不定義在\(F^{m\times n}\)上。矩陣乘法是一個二元運算,其左矩陣的列數必須等於右矩陣的行數(關聯維數相等),這一乘法才有意義。
- 矩陣乘法:設\(A\in F^{m\times n}\),\(B\in F^{n\times p}\),記\(A=(a_{ik})_{m\times n}\),\(B=(b_{kj})_{n\times p}\),則\(AB\)是一個\(m\times p\)矩陣\(c_{ij}\),滿足\[c_{ij}=\sum_{k=1}^{n}a_{ik}b_{kj},\quad i=1,\cdots,m;j=1,\cdots,p. \]即\[AB=\begin{bmatrix} \displaystyle\sum_{k=1}^{n}a_{1k}b_{k1} & \displaystyle\sum_{k=1}^{n}a_{1k}b_{k2} & \cdots & \displaystyle\sum_{k=1}^{n}a_{1k}b_{kp} \\ \displaystyle\sum_{k=1}^{n}a_{2k}b_{k1} & \displaystyle\sum_{k=1}^{n}a_{2k}b_{k2} & \cdots & \displaystyle\sum_{k=1}^{n}a_{2k}b_{kp} \\ \vdots & \vdots & & \vdots \\ \displaystyle\sum_{k=1}^{n}a_{mk}b_{k1} & \displaystyle\sum_{k=1}^{n}a_{mk}b_{k2} & \cdots & \displaystyle\sum_{k=1}^{n}a_{mk}b_{kp} \end{bmatrix}. \]
矩陣乘法與一般數的乘法不同,這一點需要格外注意。
-
矩陣乘法滿足結合律:對\(A\in F^{m\times n}\),\(B\in F^{n\times p}\),\(C\in F^{p\times q}\),均有\((AB)C=A(BC)\)。
首先這裡涉及到的四個矩陣乘法都是成立的,且最終結果都是\(m\times q\)矩陣。
\[[(AB)C]_{ij}=\sum_{l=1}^{p}\left(\sum_{k=1}^{n}a_{ik}b_{kl} \right)c_{lj}=\sum_{l=1}^{p}\sum_{k=1}^{n}a_{ik}b_{kl}c_{lj}=\sum_{k=1}^{n}a_{ik}\left(\sum_{l=1}^{p}b_{kl}c_{lj} \right)=[A(BC)]_{ij}. \]這裡主要運用了雙重連加號的可交換性。
-
矩陣乘法不滿足交換律。一方面,\(AB\)有意義時\(BA\)不一定有意義;另一方面,即使\(AB\)和\(BA\)都有意義,\(AB\)和\(BA\)也不一定可比較;最後,即使\(AB\)和\(BA\)都有意義且可比,也可能\(AB\ne BA\)。
特別當\(AB=BA\)成立時,我們稱\(A\)和\(B\)是可交換的。
-
關於純量的可結合率:\((\lambda A)B=A(\lambda B)=\lambda(AB)\)。
-
矩陣乘法滿足分配率:\((A+B)C=AC+BC\),\(A(B+C)=AB+AC\)。
-
矩陣乘法不滿足消去律:\(AB=AC\)不一定有\(B=C\);\(AB=0\)不一定有\(A=0\)或\(B=0\)。
我們會看到方陣在矩陣中具有格外重要的作用,因為它對實數有著最大的類比可能——可自乘、多項式化、有單位陣等等。類比數量乘法的冪運算,可對矩陣也建立冪運算,這要求矩陣與自身是可乘的,即\(A\)是方陣。有了冪運算後,就可以類似定義矩陣的多項式。
-
方陣的冪:對方陣\(A\in F^{n\times n}\),定義其\(k\)次冪為
\[A^{k}=\underbrace{AA\cdots A}_{k個}. \] -
單位陣:稱主對角元素都是\(1\),而其他元素都是\(0\)的\(n\)階方陣為\(n\)階單位陣,記作\(I_{(n)}\),即
\[I_{(n)}=\begin{pmatrix} 1 & 0 & \cdots & 0 \\ 0 & 1 & \cdots & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \cdots & 1 \end{pmatrix}. \]顯然對任何\(A\in F^{m\times A}\),有\(I_{(m)}A=AI_{(n)}=A\),且\(I_{(n)}\)是\(F^{n\times n}\)中的單位元素。特別地,對任何\(A\in F^{n\times n}\),定義\(A^{0}=I_{(n)}\)。
-
方陣多項式:設\(f(\lambda)=\displaystyle{\sum_{i=0}^{n}a_i\lambda^i}\)是數域\(F\)上關於\(\lambda\)的多項式,則記
\[f(A)=\sum_{i=0}^{n}a_iA^{i}, \]稱為方陣\(A\)的多項式。
對方陣多項式,其性質完全由多項式和矩陣\(A\)本身決定。設\(f(\lambda)+g(\lambda)=p(\lambda)\),\(f(\lambda)g(\lambda)=q(\lambda)\),則
- \(f(A)g(A)=q(A)=g(A)f(A)\),即\(f(A)\)和\(g(A)\)可交換。
- \(f(A)+g(A)=p(A)\)。
線上性方程組中我們已經提到了矩陣\(A\)的轉置\(A^{\intercal}\),現在專門給出它的運算性質:
-
對\(A,B\in F^{m\times n}\),有\((A+B)^{\intercal}=A^{\intercal}B^{\intercal}\)。
-
對\(\lambda\in F\),\(A\in F^{m\times n}\),有\((\lambda A)^{\intercal}=\lambda A^{\intercal}\)。
-
對\(A\in F^{m\times n}\)和\(B\in F^{n\times p}\),有\((AB)^{\intercal}=B^{\intercal}A^{\intercal}\)。對可乘矩陣\(A_1,\cdots,A_k\),有
\[(A_1A_2\cdots A_k)^{\intercal}=A_k^{\intercal}A_{k-1}^{\intercal}\cdots A_1^{\intercal}. \] -
對\(A\in F^{m\times n}\),\((A^{\intercal})^{\intercal}=A\)。
對復矩陣\(A=(a_{ij})\in \mathbb{C}^{m\times n}\),可定義其共軛矩陣\(\bar A=(\bar{a}_{ij})_{m\times n}\),它具有以下性質:
- 對\(A,B\in\mathbb{C}^{m\times n}\),有\(\overline{A+B}=\bar{A}+\bar{B}\)。
- 對\(\lambda \in \mathbb{C}\),\(A\in\mathbb{C}^{m\times n}\),有\(\overline{\lambda A}=\bar{\lambda}\bar{A}\)。
- 設\(A\in\mathbb{C}^{m\times n}\),\(B\in\mathbb{C}^{n\times p}\),有\(\overline{AB}=\bar{A}\bar{B}\)。
- 設\(A\in\mathbb{C}^{m\times n}\),有\(\overline{A^{\intercal}}=(\bar{A})^{\intercal}\),記作\(\bar{A}^{\intercal}\)。
矩陣分塊是處理矩陣的一個重要方法,也是理解難點之一,需要格外注意。在矩陣分塊時,設想用一些水平線和豎直線把\(A_{m\times n}\)分成若干個長方形小塊,分解為
\[A=\begin{pmatrix} A_{11} & A_{12} & \cdots & A_{1q} \\ A_{21} & A_{22} & \cdots & A_{2q} \\ \vdots & \vdots & & \vdots \\ A_{p1} & A_{p2} & \cdots & A_{pq} \end{pmatrix}, \]其中每個\(A_{ij}\)是\(m_i\times n_j\)型子矩陣,\(\displaystyle{\sum_{i=1}^{p}m_i=m}\),\(\displaystyle{\sum_{j=1}^{q}n_j=n}\)。矩陣分塊帶來的好處是,在對矩陣進行運算時,可以將這裡的每一個矩陣視為一個獨立的元素進行運算,尤其體現在矩陣乘法上具有優勢。特別要注意的是,對於矩陣轉置,我們有
\[A^{\intercal}=\begin{pmatrix} A_{11} & A_{12} & \cdots & A_{1q} \\ A_{21} & A_{22} & \cdots & A_{2q} \\ \vdots & \vdots & & \vdots \\ A_{p1} & A_{p2} & \cdots & A_{pq} \end{pmatrix}^{\intercal}=\begin{pmatrix} A_{11}^{\intercal} & A_{21}^{\intercal} & \cdots & A_{p1}^{\intercal} \\ A_{12}^{\intercal} & A_{22}^{\intercal} & \cdots & A_{p2}^{\intercal} \\ \vdots & \vdots & & \vdots \\ A_{1q}^{\intercal} & A_{2q}^{\intercal} & \cdots & A_{pq}^{\intercal} \end{pmatrix}. \]這裡提出一種重要型別的矩陣:分塊三角陣。設\(A\)分塊後具有如下的形式:
\[A=\begin{pmatrix} A_{11} & A_{12} & A_{13} & \cdots & A_{1q} \\ 0 & A_{22} & A_{23} & \cdots & A_{2q} \\ 0 & 0 & A_{33} & \cdots & A_{3q} \\ \vdots & \vdots & \vdots & & \vdots\\ 0 & 0 & 0 & \cdots & A_{pq} \end{pmatrix}. \]這種矩陣也稱為準上三角的,類似可定義準下三角的。對於分塊三角矩陣,由Laplace展開定理,\(\det A=\det A_{11}\det A_{22}\cdots\det A_{qq}\)。如果一個矩陣既是準上三角的,又是準下三角的,就稱之為準對角的,記作\(A=\mathrm{diag}(A_{11},A_{22},\cdots,A_{qq})\),特別當每一個\(A_{ii}\)都是一階子矩陣\(a_{ii}\)時,準對角陣是對角陣。
3.2 Binet-Cauchy公式
上一節中特意提出了方陣在矩陣中的重要地位,本節對方陣作進一步探討,研究兩個作用在\(F^{n\times n}\)上取值在\(F\)上的重要函式:矩陣的跡與行列式。
- 方陣的跡:\(n\)階方陣\(A=(a_{ij})\)的所有對角元素之和記作\(\mathrm{tr}(A)\),即\[\mathrm{tr}(A)=a_{11}+a_{22}+\cdots+a_{nn}. \]
跡變換在矩陣與一般函式的複合運算上起著很大的作用,它滿足以下結論:
-
設\(\lambda\in F\),\(A,B\in F^{n\times n}\),則\(\mathrm{tr}(A+B)=\mathrm{tr}(A)+\mathrm{tr}(B)\),\(\mathrm{tr}(\lambda A)=\lambda\mathrm{tr}(A)\)。
-
設\(A,B\in F^{n\times n}\),則\(\mathrm{tr}(AB)=\mathrm{tr}(BA)\)。事實上,對任何可乘且乘積是方陣的矩陣\(AB\),此結論都成立。
不妨設\(A=(a_{ij})_{p\times q}\),\(B=(b_{ij})_{q\times p}\),則\(AB\)可乘。現
\[\mathrm{tr}(AB)=\sum_{k=1}^{p}\sum_{i=1}^{q}a_{ki}b_{ik}=\sum_{i=1}^{q}\sum_{k=1}^{p}b_{ik}a_{ki}=\mathrm{tr}(BA). \] -
設\(A\in F^{n\times n}\),則\(\mathrm{tr}(A)=\mathrm{tr}(A^{\intercal})\)。
-
設\(A\in\mathbb{C}^{n\times n}\),則\(\mathrm{tr}(A\bar{A}^{\intercal})=0\)等價於\(A=0\)。
對行列式,我們已經在第二章中給出了詳細的討論,現對於行列式,很容易驗證\(\det(A+B)\ne \det A+\det B\),\(\det (\lambda A)\ne \lambda \det A\),即行列式不像跡那樣,是線性函式。但行列式卻是方陣的可乘函式。
-
定理:設\(A,B\in F^{n\times n}\),則\(\det(AB)=\det A\det B\)。
令\(A=(a_{ij})\),\(B=(b_{ij})\),\(C=(c_{ij})\),\(\xi_i=(b_{i1},\cdots,b_{in})\)是\(B\)的第\(i\)個行向量,\(\eta_i\)是\(C\)的第\(i\)個行向量,則運用分塊矩陣的乘法,可以得到
\[C=\begin{pmatrix} \displaystyle\sum_{j=1}^{n}a_{1j}\xi_j \\ \displaystyle\sum_{j=1}^{n}a_{2j}\xi_j \\ \vdots \\ \displaystyle\sum_{j=1}^{n}a_{nj}\xi_j \end{pmatrix}=\begin{pmatrix} \eta_1 \\ \eta_2 \\ \vdots \\ \eta_n \end{pmatrix}. \]由行列式定義,
\[\det C=\det\left(\displaystyle\sum_{j=1}^{n}a_{1j}\xi_j,\sum_{j=1}^{n}a_{2j}\xi_j,\cdots,\sum_{j=1}^{n}a_{nj}\xi_j \right)=\sum_{1\le j_1,\cdots,j_n\le n}a_{1j_1}\cdots a_{nj_n}\det(\xi_{j_1},\cdots,\xi_{jn}). \]注意到當\(j_1,\cdots,j_n\)中有兩項相等時,\(\det(\xi_{j_1},\cdots,\xi_{j_n})=0\),剩下的項應當是\(j_1,\cdots,j_n\)構成\(1,\cdots,n\)的排列,所以
\[\begin{aligned} \det C&=\sum_{1\le j_1,\cdots,j_n\le n}a_{1j_1}\cdots a_{nj_n}\det(\xi_{j_1},\cdots,\xi_{jn})\\ &=\sum_{\pmatrix{1,2,\cdots,n\\j_1j_2\cdots j_n}}a_{1j_1}\cdots a_{nj_n}\delta\pmatrix{1,2,\cdots,n\\j_1,j_2,\cdots,j_n}\det B\\ &=\det A\det B. \end{aligned} \]
將類似的過程和結論予以推廣,就得到Binet-Cauchy定理。
-
Binet-Cauchy定理:設\(A\in F^{p\times q}\),\(B\in F^{q\times p}\),則
\[\det(AB)=\left\{\begin{array}{} 0,& q<p;\\ \det A\det B,& q=p;\\ \displaystyle{\sum_{1\le j_1<j_2<\cdots<j_p\le p}A\pmatrix{1,2,\cdots,p\\j_1,j_2,\cdots,j_p}B\pmatrix{j_1,j_2,\cdots,j_p\\1,2,\cdots,p}},& q>p. \end{array}\right. \]當\(q<p\)時,\(AB\)的行向量組是
\[\left\{\begin{array}{} \eta_1=a_{11}\xi_1+a_{12}\xi_2+\cdots +a_{1q}\xi_q,\\ \eta_2=a_{21}\xi_1+a_{22}\xi_2+\cdots+a_{2q}\xi_q,\\ \cdots\\ \eta_p=a_{p1}\xi_1+a_{p2}\xi_2+\cdots+a_{pq}\xi_q. \end{array}\right. \]可以證明存在某個\(\eta_{k+1}\),使得\(\eta_{k+1}\)可以被\(\eta_1,\cdots,\eta_{k-1}\)線性表示,即存在\(b_1,\cdots,b_{k}\)使
\[\eta_{k+1}=b_1\eta_1+\cdots+b_{k}\eta_{k}, \]這等價於
\[\left\{\begin{array}{} a_{11}b_1+a_{21}b_2+\cdots+a_{k1}b_k=a_{k+1,1} \\ a_{12}b_1+a_{22}b_2+\cdots+a_{k2}b_k=a_{k+1,2} \\ \cdots \\ a_{1q}b_1+a_{2q}b_2+\cdots+a_{kq}b_k=a_{k+1,q}. \end{array}\right. \]當\(k\)充分大時未知量個數\(k\)超過方程個數\(q\),所以方程必定有解,於是\(\det(AB)=0\)。
當\(q>p\)時,\(\xi_j\)是\(p\)維向量,\(i=1,\cdots,p\),此時
\[\det C=\det\left(\sum_{j=1}^{q}a_{1j}\xi_j,\sum_{j=1}^{p}a_{2j}\xi_j,\cdots,\sum_{j=1}^{p}a_{pj}\xi_j \right), \]將這個矩陣展開,能得到\(A_{p}^{q}\)個不重複的項,即
\[\det C=\sum_{1\le j_1,j_2,\cdots,j_p\le n\\j_1\ne j_2\ne \cdots\ne j_p}a_{1j_1}\cdots a_{pj_p}\det(\xi_{j_1},\xi_{j_2},\cdots,\xi_{j_n}). \]對於\(n\)個數中每一組選擇出的\(p\)個數\(j_1<j_2<\cdots<j_p\),含有它們的項的和為
\[\sum_{1\le i_1<\cdots<i_p\le p} a_{j_1i_1}a_{j_2i_2}\cdots a_{j_pi_p}\delta\pmatrix{1,2,\cdots,p\\i_1,i_2,\cdots,i_p}\det(\xi_{j_1},\xi_{j_2},\cdots,\xi_{j_p}), \]左邊的部分即\(A\pmatrix{1,2,\cdots,p\\j_1,j_2\cdots,j_p}\),所以
\[\det (AB)=\sum_{1\le j_1<j_2<\cdots<j_p}A\pmatrix{1,2,\cdots,p\\j_1,j_2,\cdots,j_p}B\pmatrix{j_1,j_2,\cdots,j_p\\1,2,\cdots,p}. \]
為方便記憶,可以將\(q>p\)時的Binet-Cauchy公式記作
\[\det(AB)=\sum _{S}\det (A_{S})\det (B_S), \]\(S\)是\(A,B\)的最大子式規模。
下面給出一些Binet-Cauchy公式的應用。
-
求輪迴方陣的行列式:
\[A=\begin{pmatrix} a_0 & a_1 & a_2 & \cdots & a_{n-1} \\ a_{n-1} & a_0 & a_1 & \cdots & a_{n-2} \\ a_{n-2} & a_{n-1} & a_0 & \cdots & a_{n-3} \\ \vdots & \vdots & \vdots & & \vdots \\ a_1 & a_2 & a_3 & \cdots & a_{0} \end{pmatrix}. \]設\(\omega\in\mathbb{C}\)滿足\(\omega^{n}=1\),但對\(i=1,\cdots,n-1\)都有\(\omega^{i}\ne 1\)。設\(f(x)=a_0+a_1x+\cdots+a_{n-1}x^{n-1}\),令Vandermonde行列式
\[B=\begin{pmatrix} 1 & 1 & 1 & \cdots & 1\\ 1 & \omega & \omega^2 &\cdots & \omega^{n-1} \\ 1 & \omega^2 & \omega^4 & \cdots & \omega^{2(n-1)} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & \omega^{n-1} & \omega^{2(n-1)} & \cdots & \omega^{(n-1)^2} \end{pmatrix}. \]於是
\[AB=B\mathrm{diag}(f(1),f(\omega),f(\omega^2),\cdots,f(\omega^{n-1})). \]因此
\[\det A=\prod_{i=0}^{n-1}f(\omega^{i}). \] -
證明Cauchy不等式:當\(a_i,b_i\)為實數時,
\[(a_1b_1+a_2b_2+\cdots+a_nb_n)^{2}\le (a_1^2+a_2^2+\cdots+a_n^2)(b_1^2+b_2^2+\cdots+b_n^2). \]令
\[A=\begin{pmatrix} a_1 & a_2 & \cdots &a_n \\ b_1 & b_2 & \cdots & b_n \end{pmatrix}, \]則
\[AA^{\intercal}=\begin{pmatrix} \displaystyle{\sum_{i=1}^{n}a_i^2} & \displaystyle{\sum_{i=1}^{n}a_ib_i} \\ \displaystyle{\sum_{i=1}^{n}a_ib_i} & \displaystyle{\sum_{i=1}^{n}b_i^2} \end{pmatrix}. \]故\(\det(AA^{\intercal})=\displaystyle{\left(\sum_{i=1}^{n}a_i^2\right)\left(\sum_{i=1}^{n}b_i^2 \right)-\left(\sum_{i=1}^{n}a_ib_i \right)^2}\)。另一方面,由Binet-Cauchy公式有
\[\det (AA^{\intercal})=\sum_{1\le i<j\le n}A\pmatrix{1,2\\i,j}^2\ge 0, \]故Cauchy不等式得證。為使不等式的等號成立,需要每一個\(A\pmatrix{1,2\\i,j}=0\),即
\[\frac{a_1}{b_1}=\cdots=\frac{a_n}{b_n}. \]