文章目录
简要介绍性质一:特征值为实数性质二:不同特征值对应的特征向量互相正交性质三:谱分解定理性质四:迹与行列式性质五:
A
A
T
\mathbf{A} \mathbf{A}^T
AAT 的基本性质
简要介绍
实对称矩阵
A
\mathbf{A}
A 的基本性质如下图所示:
性质一:特征值为实数
定理:设
A
∈
R
n
×
n
\mathbf{A} \in \Bbb{R}^{n \times n}
A∈Rn×n 是实对称矩阵,即
A
=
A
T
\mathbf{A} = \mathbf{A}^T
A=AT,若
λ
\lambda
λ 是
A
\mathbf{A}
A 的特征值,则
λ
∈
R
\lambda \in \Bbb{R}
λ∈R。 证明: 假设
λ
∈
C
\lambda \in \mathbb{C}
λ∈C 是
A
∈
R
n
×
n
\mathbf{A} \in \mathbb{R}^{n \times n}
A∈Rn×n 的一个复特征值,对应的复特征向量为
v
∈
C
n
\mathbf{v} \in \mathbb{C}^n
v∈Cn,即:
A
v
=
λ
v
.
\mathbf{A} \mathbf{v} = \lambda \mathbf{v}.
Av=λv.对等式两边取共轭转置:
A
v
‾
=
λ
v
‾
.
\overline{\mathbf{A} \mathbf{v}} = \overline{\lambda \mathbf{v}}.
Av=λv.由于
A
\mathbf{A}
A 是实矩阵,有
A
‾
=
A
\overline{\mathbf{A}} = \mathbf{A}
A=A,且
A
v
‾
=
A
v
‾
\overline{\mathbf{A} \mathbf{v}} = \mathbf{A} \overline{\mathbf{v}}
Av=Av,因此:
A
v
‾
=
λ
‾
v
‾
.
\mathbf{A} \overline{\mathbf{v}} = \overline{\lambda} \overline{\mathbf{v}}.
Av=λv.利用实对称矩阵的性质
A
=
A
T
\mathbf{A} = \mathbf{A}^T
A=AT,计算
v
T
A
v
‾
\mathbf{v}^T \mathbf{A} \overline{\mathbf{v}}
vTAv:
v
T
A
v
‾
=
v
T
(
λ
v
)
=
λ
v
T
v
‾
=
λ
∥
v
∥
2
\mathbf{v}^T \mathbf{A} \overline{\mathbf{v}} = \mathbf{v}^T (\lambda \mathbf{v}) = \lambda \mathbf{v}^T \overline{\mathbf{v}} = \lambda \|\mathbf{v}\|^2
vTAv=vT(λv)=λvTv=λ∥v∥2
v
T
A
v
‾
=
(
A
v
)
T
v
‾
=
λ
‾
v
T
v
‾
=
λ
‾
∥
v
∥
2
\mathbf{v}^T \mathbf{A} \overline{\mathbf{v}} = (\mathbf{A} \mathbf{v})^T \overline{\mathbf{v}} = \overline{\lambda} \mathbf{v}^T \overline{\mathbf{v}} = \overline{\lambda} \|\mathbf{v}\|^2
vTAv=(Av)Tv=λvTv=λ∥v∥2
由于
∥
v
∥
2
≠
0
\|\mathbf{v}\|^2 \neq 0
∥v∥2=0 (
v
≠
0
\mathbf{v} \neq \mathbf{0}
v=0),比较左右两边得:
λ
=
λ
‾
⟹
λ
∈
R
\lambda = \overline{\lambda} \implies \lambda \in \mathbb{R}
λ=λ⟹λ∈R
性质二:不同特征值对应的特征向量互相正交
定理:设
A
∈
R
n
×
n
\mathbf{A} \in \mathbb{R}^{n \times n}
A∈Rn×n 是实对称矩阵,若
λ
≠
μ
\lambda \neq \mu
λ=μ 是
A
\mathbf{A}
A 的两个不同特征值,对应的特征向量分别为
v
,
w
∈
R
n
\mathbf{v}, \mathbf{w} \in \Bbb{R}^n
v,w∈Rn,则
v
⊥
w
\mathbf{v} \perp \mathbf{w}
v⊥w,即
v
⊤
w
=
0
\mathbf{v}^\top \mathbf{w} = 0
v⊤w=0。 证明: 由特征向量的定义:
A
v
=
λ
v
,
A
w
=
μ
w
.
\mathbf{A} \mathbf{v} = \lambda \mathbf{v}, \quad \mathbf{A} \mathbf{w} = \mu \mathbf{w}.
Av=λv,Aw=μw.计算
v
T
A
w
\mathbf{v}^T \mathbf{A} \mathbf{w}
vTAw:
v
T
A
w
=
v
T
(
μ
w
)
=
μ
v
T
w
\mathbf{v}^T \mathbf{A} \mathbf{w} = \mathbf{v}^T (\mu \mathbf{w}) = \mu \mathbf{v}^T \mathbf{w}
vTAw=vT(μw)=μvTw
v
T
A
w
=
(
A
v
)
T
w
=
(
λ
v
)
T
w
=
λ
v
T
w
\mathbf{v}^T \mathbf{A} \mathbf{w} = (\mathbf{A} \mathbf{v})^T \mathbf{w} = (\lambda \mathbf{v})^T \mathbf{w} = \lambda \mathbf{v}^T \mathbf{w}
vTAw=(Av)Tw=(λv)Tw=λvTw
比较左右两边:
μ
v
T
w
=
λ
v
T
w
⟹
(
μ
−
λ
)
v
T
w
=
0
\mu \mathbf{v}^T \mathbf{w} = \lambda \mathbf{v}^T \mathbf{w} \implies (\mu - \lambda)\mathbf{v}^T \mathbf{w} = 0
μvTw=λvTw⟹(μ−λ)vTw=0由于
λ
≠
μ
\lambda \neq \mu
λ=μ,故
μ
−
λ
≠
0
\mu - \lambda \neq 0
μ−λ=0,因此必须有:
v
T
w
=
0
\mathbf{v}^T \mathbf{w} = 0
vTw=0
性质三:谱分解定理
定理:设
A
∈
R
n
×
n
\mathbf{A} \in \mathbb{R}^{n \times n}
A∈Rn×n 是实对称矩阵,则存在正交矩阵
Q
\mathbf{Q}
Q
(
Q
−
1
=
Q
T
)
(\mathbf{Q}^{-1} = \mathbf{Q}^T)
(Q−1=QT) 和实对角矩阵
Λ
\mathbf{\Lambda}
Λ 使得:
A
=
Q
Λ
Q
−
1
=
Q
Λ
Q
T
⇔
Q
−
1
A
Q
=
Λ
\mathbf{A} = \mathbf{Q} \mathbf{\Lambda} \mathbf{Q}^{-1} = \mathbf{Q} \mathbf{\Lambda} \mathbf{Q}^T \Leftrightarrow \mathbf{Q}^{-1} \mathbf{A} \mathbf{Q} = \mathbf{\Lambda}
A=QΛQ−1=QΛQT⇔Q−1AQ=Λ证明: 根据性质一和性质二可知,实对称矩阵
A
\mathbf{A}
A 的特征值为实数,且不同特征值的特征向量正交。 假设
A
\mathbf{A}
A 的所有特征值
λ
1
,
λ
2
,
⋯
,
λ
n
\lambda_1, \lambda_2, \cdots, \lambda_n
λ1,λ2,⋯,λn 对应的特征向量为
v
1
,
v
2
,
⋯
,
v
n
\mathbf{v}_1, \mathbf{v}_2, \cdots, \mathbf{v}_n
v1,v2,⋯,vn,对这些特征向量进行单位化,得到
R
n
\Bbb{R}^n
Rn 的一组标准正交基
q
1
,
q
2
,
⋯
,
q
n
\mathbf{q}_1, \mathbf{q}_2, \cdots, \mathbf{q}_n
q1,q2,⋯,qn。将这些特征向量作为列向量组成正交矩阵
Q
=
[
q
1
,
q
2
,
⋯
,
q
n
]
\mathbf{Q} = [\mathbf{q}_1, \mathbf{q}_2, \cdots, \mathbf{q}_n]
Q=[q1,q2,⋯,qn],显然
Q
\mathbf{Q}
Q 是正交矩阵,并且满足
Q
T
Q
=
I
\mathbf{Q}^T \mathbf{Q} = \mathbf{I}
QTQ=I
(
Q
T
=
Q
−
1
)
(\mathbf{Q}^T = \mathbf{Q}^{-1})
(QT=Q−1)。 令
Λ
=
d
i
a
g
(
λ
1
,
λ
2
,
⋯
,
λ
n
)
\mathbf{\Lambda} = diag(\lambda_1, \lambda_2, \cdots, \lambda_n)
Λ=diag(λ1,λ2,⋯,λn),则有:
A
Q
=
Q
Λ
\mathbf{A} \mathbf{Q} = \mathbf{Q} \mathbf{\Lambda}
AQ=QΛ两边同时左乘
Q
T
\mathbf{Q}^T
QT,得到:
Q
T
A
Q
=
Λ
⇒
A
=
Q
Λ
Q
T
\mathbf{Q}^T \mathbf{A} \mathbf{Q} = \mathbf{\Lambda} \Rightarrow \mathbf{A} = \mathbf{Q} \mathbf{\Lambda} \mathbf{Q}^T
QTAQ=Λ⇒A=QΛQT
性质四:迹与行列式
由性质三可知,
A
\mathbf{A}
A 相似于
Λ
\mathbf{\Lambda}
Λ,又因为相似矩阵具有相同的迹和行列式,因此有:
{
tr
(
A
)
=
tr
(
Λ
)
=
λ
1
+
λ
2
+
⋯
+
λ
n
det
(
A
)
=
det
(
Λ
)
=
λ
1
λ
2
⋯
λ
n
\begin{cases} \operatorname{tr}(\mathbf{A}) = \operatorname{tr}({\mathbf{\Lambda}}) = \lambda_1 + \lambda_2 + \cdots + \lambda_n \\ \\ \det(\mathbf{A}) = \det(\mathbf{\Lambda}) = \lambda_1 \lambda_2 \cdots \lambda_n \end{cases}
⎩
⎨
⎧tr(A)=tr(Λ)=λ1+λ2+⋯+λndet(A)=det(Λ)=λ1λ2⋯λn
性质五:
A
A
T
\mathbf{A} \mathbf{A}^T
AAT 的基本性质
实际上,我们很难保证
A
\mathbf{A}
A 是实对称矩阵,但对于任意实矩阵
A
\mathbf{A}
A,
A
A
T
\mathbf{A} \mathbf{A}^T
AAT 一定是实对称矩阵。
A
A
T
\mathbf{A} \mathbf{A}^T
AAT 在线性代数、统计学、优化、计算机科学等领域有着广泛的应用,其核心在于它总是产生一个对称 (Symmetric) 和半正定 (Positive Semi-Definite) 的方阵(大小为
m
×
m
m \times m
m×m)。
假设
A
∈
R
m
×
n
\mathbf{A} \in \Bbb{R}^{m \times n}
A∈Rm×n,现在我们对
A
A
T
∈
R
m
×
m
\mathbf{A}\mathbf{A}^T \in \Bbb{R}^{m \times m}
AAT∈Rm×m 的基本性质做如下总结:
对称性。
(
A
A
T
)
T
=
A
A
T
(\mathbf{A} \mathbf{A}^T)^T = \mathbf{A} \mathbf{A}^T
(AAT)T=AAT半正定性。对任意向量
v
∈
R
m
\mathbf{v} \in \Bbb{R}^m
v∈Rm,有
v
T
(
A
A
T
)
v
=
(
A
T
v
)
T
A
T
v
=
∥
A
T
v
∥
≥
0
\mathbf{v}^T (\mathbf{A} \mathbf{A}^T) \mathbf{v} = (\mathbf{A}^T\mathbf{v})^T \mathbf{A}^T\mathbf{v} = \| \mathbf{A}^T \mathbf{v} \| ≥ 0
vT(AAT)v=(ATv)TATv=∥ATv∥≥0特征值非负。假设特征值
λ
i
\lambda_i
λi 对应的特征向量为
v
i
≠
0
\mathbf{v}_i ≠ \mathbf{0}
vi=0,根据半正定性质可知,
v
i
T
A
v
i
=
λ
i
v
i
T
v
i
=
λ
i
∥
v
i
∥
2
≥
0
\mathbf{v}_i^T \mathbf{A} \mathbf{v}_i = \lambda_i \mathbf{v}_i^T \mathbf{v}_i = \lambda_i\|\mathbf{v}_i\|^2 ≥ 0
viTAvi=λiviTvi=λi∥vi∥2≥0,即有
λ
i
≥
0
\lambda_i ≥ 0
λi≥0秩。
r
a
n
k
(
A
A
T
)
=
r
a
n
k
(
A
T
A
)
=
r
a
n
k
(
A
)
rank(\mathbf{A} \mathbf{A}^T) = rank(\mathbf{A}^T \mathbf{A}) = rank(\mathbf{A})
rank(AAT)=rank(ATA)=rank(A)。根据秩-零化度定理有:
r
a
n
k
(
A
T
A
)
+
d
i
m
(
N
(
A
T
A
)
)
=
n
=
r
a
n
k
(
A
)
+
d
i
m
(
N
(
A
)
)
rank(\mathbf{A}^T \mathbf{A}) + dim(N(\mathbf{A}^T \mathbf{A})) = n = rank(\mathbf{A}) + dim(N(\mathbf{A}))
rank(ATA)+dim(N(ATA))=n=rank(A)+dim(N(A))1)对任意
x
∈
N
(
A
)
x \in N(\mathbf{A})
x∈N(A),有
A
x
=
0
\mathbf{A} x = \mathbf{0}
Ax=0,从而
A
T
A
x
=
A
T
0
=
0
\mathbf{A}^T \mathbf{A} x = \mathbf{A}^T \mathbf{0} = \mathbf{0}
ATAx=AT0=0,所以
N
(
A
)
⊆
N
(
A
T
A
)
N(\mathbf{A}) \subseteq N(\mathbf{A}^T \mathbf{A})
N(A)⊆N(ATA)。 2)对任意
x
∈
N
(
A
T
A
)
x \in N(\mathbf{A}^T \mathbf{A})
x∈N(ATA),有
A
T
A
x
=
0
\mathbf{A}^T \mathbf{A} x = 0
ATAx=0,从而
x
T
A
T
A
x
=
0
⇒
∥
A
x
∥
2
=
0
⇒
A
x
=
0
x^T \mathbf{A}^T \mathbf{A} x = 0 \Rightarrow \|\mathbf{A} x\|^2 = 0 \Rightarrow \mathbf{A} x = 0
xTATAx=0⇒∥Ax∥2=0⇒Ax=0,所以
N
(
A
T
A
)
⊆
N
(
A
)
N(\mathbf{A}^T \mathbf{A}) \subseteq N(\mathbf{A})
N(ATA)⊆N(A)。 综上有
N
(
A
T
A
)
=
N
(
A
)
N(\mathbf{A}^T \mathbf{A}) = N(\mathbf{A})
N(ATA)=N(A),即
d
i
m
(
N
(
A
T
A
)
)
=
d
i
m
(
N
(
A
)
)
dim(N(\mathbf{A}^T \mathbf{A})) = dim(N(\mathbf{A}))
dim(N(ATA))=dim(N(A)),从而
r
a
n
k
(
A
T
A
)
=
r
a
n
k
(
A
)
rank(\mathbf{A}^T \mathbf{A}) = rank(\mathbf{A})
rank(ATA)=rank(A)。 此外,
r
a
n
k
(
A
A
T
)
=
r
a
n
k
(
(
A
A
T
)
T
)
=
r
a
n
k
(
(
A
T
)
T
A
T
)
=
r
a
n
k
(
A
T
)
=
r
a
n
k
(
A
)
=
r
a
n
k
(
A
T
A
)
rank(\mathbf{A} \mathbf{A}^T) = rank((\mathbf{A} \mathbf{A}^T)^T) = rank((\mathbf{A}^T)^T \mathbf{A}^T) =rank(\mathbf{A}^T) = rank(\mathbf{A}) = rank(\mathbf{A}^T \mathbf{A})
rank(AAT)=rank((AAT)T)=rank((AT)TAT)=rank(AT)=rank(A)=rank(ATA)。迹。
tr
(
A
A
T
)
=
∥
A
∥
F
2
\operatorname{tr}(\mathbf{A}\mathbf{A}^T) = \|\mathbf{A}\|^2_F
tr(AAT)=∥A∥F2。
A
A
T
∈
R
m
×
m
\mathbf{A} \mathbf{A}^T \in \Bbb{R}^{m \times m}
AAT∈Rm×m 的迹为
tr
(
A
A
T
)
=
∑
i
=
1
m
(
A
A
T
)
i
i
\operatorname{tr}(\mathbf{A}\mathbf{A}^T) = \sum_{i = 1}^m (\mathbf{A} \mathbf{A}^T)_{ii}
tr(AAT)=i=1∑m(AAT)ii其中,
(
A
A
T
)
i
i
(\mathbf{A} \mathbf{A}^T)_{ii}
(AAT)ii 表示
A
A
T
\mathbf{A} \mathbf{A}^T
AAT 的第
i
i
i 行第
j
j
j 列元素。 根据矩阵乘法的定义,结合
(
A
T
)
k
i
=
A
i
k
(\mathbf{A}^T)_{ki} = \mathbf{A}_{ik}
(AT)ki=Aik 可得:
(
A
A
T
)
i
i
=
∑
k
=
1
n
A
i
k
(
A
T
)
k
i
=
∑
k
=
1
n
A
i
k
A
i
k
=
∑
k
=
1
n
A
i
k
2
(\mathbf{A} \mathbf{A}^T)_{ii} = \sum_{k = 1}^n \mathbf{A}_{ik}(\mathbf{A}^T)_{ki} = \sum_{k = 1}^n \mathbf{A}_{ik}\mathbf{A}_{ik} = \sum_{k = 1}^n \mathbf{A}_{ik}^2
(AAT)ii=k=1∑nAik(AT)ki=k=1∑nAikAik=k=1∑nAik2从而有:
tr
(
A
A
T
)
=
∑
i
=
1
m
∑
k
=
1
n
A
i
k
2
=
∥
A
∥
F
2
\operatorname{tr}(\mathbf{A}\mathbf{A}^T) = \sum_{i = 1}^m \sum_{k = 1}^n \mathbf{A}_{ik}^2 = \|\mathbf{A}\|^2_F
tr(AAT)=i=1∑mk=1∑nAik2=∥A∥F2