协方差矩阵 on python

2013-12-10

协方差的定义

$Cov(X, Y) = E((X-E(X))(Y-E(Y)))$

X, Y分别代表了两个维度上的随机变量或者说是分布，N，M代表了随机变量数和样本数，协方差矩阵的维度也是固定的，如果只有N个维度上的随机变量之间的协方差矩阵那么维度就是N*N阶的矩阵

对于给定四个样本来说的话

${s}_{1} = {(1, 2)}^{T} \ {s}_{2} = {(3, 6)}^{T} \ {s}_{3} = {(4, 2)}^{T} \ {s}_{4} = {(5, 2)}^{T}$ $X = {(1, 3, 4, 5)}_{T}, Y = {(2, 6, 2, 2)}_{T}$

用一个矩阵来表示这四个样本的话

$o = \begin{pmatrix} 1 & 2 \\ 3 & 6 \\ 4 & 2 \\ 5 & 2 \end{pmatrix}$

对于协方差矩阵中的每一个元素的计算公式就是

${cov}_{ij} = \frac{({o}_{i}-E({o}_{i}))*({o}_{j}-E({o}_{j}))}{(M-1)}$

大白话就是

协方差(i,j)= (第i列的所有元素-第i列的均值)*(第j列的所有元素-第j列的均值)/(样本数-1)

计算过程

$\begin{align*} & {cov}_{00} = \frac{(1-3.25, 3-3.25, 4-3.25, 5-3.25) * {(1-3.25, 3-3.25, 4-3.25, 5-3.25)}^{T}}{4-1} = 2.91666667 \\ & {cov}_{01} = \frac{(1-3.25, 3-3.25, 4-3.25, 5-3.25) * {(2-3, 6-3, 2-3, 2-3)}^{T}}{4-1} = -0.33333333 \\ & {cov}_{10} = \frac{(2-3, 6-3, 2-3, 2-3) * {(1-3.25, 3-3.25, 4-3.25, 5-3.25)}^{T}}{4-1} = -0.33333333 \\ & {cov}_{11} = \frac{(2-3, 6-3, 2-3, 2-3) * {(2-3, 6-3, 2-3, 2-3)}^{T}}{4-1} = 4 \end{align*}$

最终得到

$\begin{pmatrix} 2.91666667 & -0.33333333 \\ -0.33333333 & 4 \end{pmatrix}$

python代码

import numpy as np

s1 = [1, 2]
s2 = [3, 6]
s3 = [4, 2]
s4 = [5, 2]

o = np.array([s1, 
              s2,
              s3,
              s4])

mean = np.mean(o, axis=0)
o = o-mean
cov = o.T.dot(o)/(o.shape[0]-1)

或者干脆用numpy中的cov函数

import numpy as np

s1 = [1, 2]
s2 = [3, 6]
s3 = [4, 2]
s4 = [5, 2]

o = np.array([s1, 
              s2,
              s3,
              s4])

cov = np.cov(o, rowvar=0)

注意numpy中的shape这一个函数返回的结果，shape[0]表示一个矩阵的高度，shape[1]表示一个矩阵的宽度

对于多维的情况也是一样的
假如有样本

${s}_{1} = {(1, 2, 3, 4)}^{T} \ {s}_{2} = {(3, 4, 1, 2)}^{T} \ {s}_{3} = {(2, 3, 1, 4)}^{T}$

表示是四维的随机变量间的协方差矩阵，给了三个样本，每个样本中每个元素分别是四个维度上的数值

$o= \begin{pmatrix} 1 & 2 & 3 & 4 \\ 3 & 4 & 1 & 2 \\ 2 & 3 & 1 & 4 \end{pmatrix}$

然后按照上面的公式来计算协方差矩阵的每一个元素然后就可以得到最终的协方差矩阵了