协方差与相关系数
以下以二维随机变量为例,展示协方差以及相关系数的概念。虽然协方差和相关系数相对期望、方差来说显得复杂,但是他们依旧是随机变量的数字特征。
协方差
设\([X, Y]\)为一组二维随机变量,如果\(\mathrm E\{[X - \mathrm E(X)][Y - \mathrm E(Y)]\}\)存在,则称 \[ \notag \mathrm {Cov}(X, Y) \triangleq \mathrm E\{[X - \mathrm E(X)][Y - \mathrm E(Y)]\} \] 为随机变量\(X\)和\(Y\)的协方差。在实际中计算协方差时,更多的是使用以下公式:
\[ \begin{aligned} &\mathrm {Cov}(X, Y) = \mathrm E\{[X - \mathrm E(X)][Y - \mathrm E(Y)]\} \\ &= \mathrm E[XY - X\mathrm E(Y) - \mathrm E(X)Y + \mathrm E(X) \mathrm E(Y)] \\ &= \mathrm E(XY) - \mathrm E(X)\mathrm E(Y) - \mathrm E(X)\mathrm E(Y) + \mathrm E(X) \mathrm E(Y) \\ &= \mathrm E(XY) - \mathrm E(X) \mathrm E(Y) \end{aligned} \] 而二维随机变量\([X, Y]\)对应的协方差矩阵即为
\[ \Sigma = \begin{bmatrix} \Cov(X,X) & \Cov(X,Y) \\ \Cov(Y,X) & \Cov(Y,Y) \\ \end{bmatrix} \]
相关系数
协方差考察了随机变量之间协同变化的关系,但如果采取不同的量纲,同样的数据产生的协方差相差非常大。为避免这种情况发生,我们可以首先将随机变量标准化: \[ X^\star = \frac{X - \E(X)}{\sqrt{\Var(X)}},Y^\star = \frac{Y - \E(Y)}{\sqrt{\Var(Y)}} \] 再求协方差\(\Cov(X^\star, Y^\star)\),这便是随机变量\(X\)和\(Y\)的相关系数: \[ \rho(X, Y) = \mathrm{Cov}(X^\star, Y^\star) = \frac{\Cov(X, Y)}{\sqrt{\Var(X) \Var(Y)}} \] 实际上对于任意常数\(c\),都有 \[ \rho(cX, cY) = \rho(X, Y) \] 相关系数绝对值小于等于\(1\)。该性质可以由Cauchy-Schwartz不等式在期望中的应用直接证明,也可以通过期望、方差性质证明。