暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

为什么正态分布如此常见?

AI有温度 2021-10-26
2627
在生活中,我们一般会默认为中间状态是事物的常态,过高和过低都属于少数。比如男性身高、体重、寿命、血压、考试成绩、测量误差等都属于正态分布。那么正态分布为什么常见?


高尔顿钉板

我们来看看高尔顿钉板,或许有助于我们理解正态分布为什么常见。弹珠往下滚的时候,撞到钉子就会随机选择往左边走,还是往右边走:


一颗弹珠一路滚下来会多次选择方向,最终的分布会接近正态分布:


中心极限定理

开头提到的男性身高,受到多个因素的影响,比如:

  • 父母身高

  • 家里面的饮食习惯,比如吃素还是吃荤,吃牛肉还是吃猪肉

  • 是否喜欢运动,喜欢什么运动

这些影响,就好像高尔顿钉板中的钉子:

要不对身高产生正面影响,要不对身高产生负面影响,最终让整体男性的身高接近正态分布。
中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布,其中有三个要素:采样随机、因素独立与因素对结果的影响为相加
每次采样受到的影响就好像钉板中的钉子,对采样结果进行或者正面、或者负面的影响,并要求弹珠的起始状态一致,类比身高的例子,就是要求至少物种一致,肯定不能猪和人一起比较。


为什么还有很多不是正态分布?

正态分布是对称的(高个子与矮个子的比例相同),但是很多真实世界的分布是不对称的。

比如财富的分布就是不对称的,富人的有钱程度(可能比平均值高出上万倍)远远超出穷人的贫穷程度,即财富分布曲线有右侧的长尾。这是为什么呢,财富明明也受到多种因素的影响,怎么就不是正态分布呢?
原来,正态分布只适合各种因素相加的情况,如果这些因素不是彼此独立,而是会互相加强影响,那么就不是正态分布了。一个人是否能够挣大钱,由多种因素决定,比如家庭条件、父母学历、教育、工作等。
这些因素都不是相互独立的,而是会彼此加强。如果出生在父母高学历、家庭条件好的家庭,那么你就有更大的机会接受良好的教育、找到高薪的工作、遇见好机会。而不像影响身高的因素,比如你有好的基因,但并不会因为基因好而有机会有更好饮食。
也就是说,在影响财富的因素之间不是1+1=2的效果,而是1+1>2。统计学家发现,如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布。


本文参考
阮一峰 | 阮一峰的网络日志
马同学 | 马同学图解数学
编辑重排

AI工程师Tiger | 有温度的算法


往期推荐



AI科普(一):什么是人工智能?

Python的68个内置函数

Python多线程总结


文章转载自AI有温度,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论