暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

协方差与相关系数

Python爬虫和数据挖掘 2021-07-08
464

文章目录


  • 文章目录

    • 1. 协方差

    • 2. 相关系数


1. 协方差


  • 定义

    称为随机变量「协方差」。 记为 ,即

    由定义很容易知道
    我们在介绍方差时,有性质


    往往使用下面的式子计算协方差的值

  • 性质

    为常数

    证明

    证明

2. 相关系数


  • 定义

    协方差反映了变量之间的某种线性关系,但是这个关系结果会受到度量单位的影响,举个简单的例子,表示一些人的身高, 表示这些人的体重,我们想知道身高和体重的关系,如果身高使用单位为,当体重用时会得到数值完全不同的关系数值,为了消除这种影响,我们需要对随机变量 进行标准化就可以了,则令,此时有

    我们称

    为随机变量「相关系数」


  • 性质

    证明:

    考虑以的线性函数 来近似表示, 以均方误差 来表示以近似表达的好坏程度,很明显,越小,说明的近似程度越高,由此我们的目标变为计算均方误差的最小值 。求解过程如下

    分别对求偏导并令它们等于,得到

    很容易解得 (方程组中式),

    十分推荐这种方法来证明 ,原因是这种证明方式,很清楚的表达了 的含义,当较大时,均方误差 较小,表示「线性关系」越紧密。不仅如此,该证明方式还给出了,均方误差 最小时,的取值,也就很明确了随机变量之间的线性关系。

    证明方法二:

    利用柯西施瓦兹不等式进行证明,对于两个随机变量,若存在,则

    这个不等式称为「柯西施瓦兹不等式」


    我们先证明这个不等式:

    必然成立,即有 恒成立,这里将 看做是关于的抛物线,高中知识就知道,要满足抛物线大于等于成立,需要 恒成立,因此柯西施瓦兹不等式得到证明。

    下面利用柯西施瓦兹不等式证明

    我们要利用柯西施瓦兹不等式进行证明,因此考虑两边同时取平方,此时有

    的充要条件是存在常数使

    证明

    已知

    我们在证明性质 时知道,

    由方差性质可知,有

     存在常数使

    已知存在常数,设为 使

    由方差性质可知,

    , 应满足

    由性质可知,此时有 成立

    该性质表明随机变量之间 以概率存在着线性关系,当 较大时,通常说的线性相关程度较好;反之,则说的线性相关程度较差

  • 特殊的相关系数值

    • 时,表示 没有线性关系,注意这里是没有线性关系,没有说不可以有非线性关系
    • 时,表示 正相关
    • 时,表示 完全正相关
    • 时,表示 负相关
    • 时,表示 完全负相关
  • 相关与独立

    • 两个变量独立,此时有 所以有,即 「独立一定不相关」

    • 两个随机变量不相关,此时虽然有 但却不一定独立。字面理解的话,就是 当 时,表示 没有线性关系,注意这里是没有线性关系,没有说不可以有非线性关系

      下面给出一个两个随机变量不相关,也不独立的例子,加深理解

        
        
        
        
        
        
        
        
        
        
        
        
        
        
        

      由表格可知



        因此随机变量 并不独立。

  • 特例,设 服从二维正态分布,记作,其中 均为 常数,且  则的不相关与独立是等价的

    证明

    服从二维正态分布,则

    因此,我们知道二维正态分布的边缘分布为一维正态分布,有

    也就是说,二维正态随机变量的概率密度中的参数 就是随机变量的相关系数,因此,二维正态随机变量可由各自的数学期望,方差和相关系数所确定。若不相关,即,将其带入 刚好得到 ,则相互独立。因此对于二维正态随机变量来说,不相关与独立是等价的。


文章转载自Python爬虫和数据挖掘,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论