本来这周要进行hudi的一些技术分享的,但是感觉有些太偏向技术了,恰巧这周看了几篇文章有了一些感悟,所以临时增加相关性与因果性。
“冬天炖菜更受欢迎”,“带孩子的顾客更喜欢点烤肠和蛋挞”。“爱抽烟会导致肺癌发生”。以上这些描述告诉我们这些现象与那些相关,但是没说他们是如何关联在一起的,实际上当一个变量发生的变化的时候,另一个变量随时间同步会变化也就是时间顺序协同变化(时序协变),这就是相关性。但是有很多情况却看似是相关性但是实际上不是,例如你要通过一个考试,那么你去问已经考过了的人,他告诉你几个条件分别是
1、考试的时候一定要用楷体来书写答案;
2、考试前一天晚上一定不要看基础的知识点;
3、考试的时候图答案纸的时候一定不要图的太黑;
4、考试的时候一定不要把卷子弄脏。
当你得知这些条件的时候,你是否觉得这些和你的考试结果具有相关性呢?实际是错误的,并不具备相关性,为什么呢?因为相关性要求两个变量是时序协变的。但是以上的条件虽然是变化,但是结果却没有变化(你想要的考试通过结果),如果结果没有变化我们就没法确定是否还有其他因素和结果有关,也就没法确定相关性。这也就意味着两个变量都要发生变化且是动态的,但两者之间一定同时存在一定程度的同步变化趋势,如果这两个变量没用共同发生变化,那我们就无法找到他们之间的相关性。
相关性分析通俗的解释就是两件事的关联程度,但是这里面的关联程度却并不意味着一个变量会影响另一个变量。相关性是可以使用数学里面的函数或者公式来进行展示,因果性更倾向于对事件之间的相互影响,相关性着重于对未来的预测,因果性则意味着你可以改变未来。
相关系数种类
在统计学中有三种相关系数,这三个相关系数都指的是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。(在这里就不贴这三个相关系数的公式了)
1、皮尔森(pearson)相关系数
衡量线性关联性的程度,举个通俗的例子来说,我们想研究人的体重与饭菜种类的的相关习惯,如果你每天吃不同的菜和主食,但是你的体重却一直没有变化,或者你的体重一直在变化,但是你吃的东西每天都一样,那这样就无法通过皮尔森相关系数来计算他们之间是否具有相关性了。
2、斯皮尔曼(spearman)相关系数
斯皮尔曼秩相关系数则更侧重于“秩”,可以理解成就是一种顺序或者排序,那么它就是根据原始数据的排序位置进行分析,他没有求皮尔森相关性系数那些限制,即便在变量值没有变化的情况下,也不会像皮尔森系数那样无法分析。由于斯皮尔曼相关性系数没有皮尔森相关系数的数据条件要求,适用的范围就广多了。在我们生物实验数据分析中,尤其是在分析多组学交叉的数据中说明不同组学数据之间的相关性时,使用的频率很高。
3、肯德尔(kendall)相关系数
肯德尔秩相关系数,它也是一种秩相关系数,不过它计算的对象与斯皮尔曼不同,他计算的是分类变量(具备类别特征的变量比如男女、血型、睡眠登记等)。肯德尔相关系数一般都是分析有序分类变量(如睡眠等级、肥胖等级这类)。
比如日本运动会中我们想看几个评委对选手的评分、或者查看你的脂肪肝程度各个医院的化验结果是否相同。
相关性的用途
相关性最重要的用途就是预测也是智能化转型中比较常用的一种,其实现如今的人工智能或者机器学习归根结底还是高度依赖算法工程师和数据分析师从数据中提取特征,而很多论证或者猜测实际上都是通过相关性来统计,进而进行猜测,然后才会采取因果性来证实事实真相。也正是相关性不是稳定的,所以才会有因果性来把它变为稳定形态,也就是来证实事实真相。
但是虽然因果性是稳定的,可取的。那么为什么不直接使用因果性来分析呢?这里就要说到因果性要求是非常高的,他要有严谨的理论和逻辑,并且要在考虑全局层面的多种因素影响下的最终结果,这很难办到,需要投入巨大的精力、人力、时间等。但是相关性却不用这么多限制,使用相关性系数就能证明很多东西,从而能够探索更多的解决办法。
相关性在市场预测方面的用途更多的是显现在各种消费指标上,当年塔吉特公司在一个女孩家人不知道的情况下就已经知道他怀孕这件事就是使用相关性预测分析,塔吉特当时通过大量数据分析,发现单独购买乳液或者棉球相关性不高,但是孕期的顾客则会同时购买以上两种同时购买维生素,通过海量的数据进行关联后,甚至能够判断出顾客怀孕的可能性以及怀孕多长时间了,当然在现如今社会这个已经不算是什么新鲜事了,在2013年前阿里要进军车行业的时候我参加过一个会议,当时阿里就已经构想到,你现在是一胎家庭,一旦你开始采购孕前物品的时候,通过你购买商品的商品档次、临产前那几个月产检次数增加之前,来给你推送车辆信息包含贷款等一系列信息,然后在通过购买记录监测二胎情况,如果准备要二胎了,在给你推送MPV车型等。在现在这些都已经都是普通操作了。
相关性分析在商场、超市、电商领域最常用的就是购物篮分析,这种分析的思维不仅仅是在售卖方面,随着研究对象包含的范围越大,通过挖掘数据底层的关联规则,就可以通过这些潜在的内关联价值的商品来制定相关营销策略来提升销售,甚至是调整交通信号市场、市场经济情况的。
我们在使用关联销售的时候很容易忽略消费者心理想要什么,以及可以接受的心理价位是什么,通过对大量商品记录数据做分析提取顾客偏好从而使用最优的规则是关联分析的优点。在现今社会随着线上流量的暴涨,各种指标也在不断的增加,从最基本的PV/PR/爆款指标扩展到重构率、节点转换率、私域流量等更高层次,在这时做好关联分析就能让你在竞争中多处一个抓手。
例如在快餐行业将荤素搭配、酸辣错落的菜品等关联性较强的放在一起的时候,会有效提升销售量,电商行业将关联性较强的产品放在一个页面的时候也能显著提升商品页面的PV。同时善于利用爆品的关联性不但能够降低爆品的利润下降,通过组合还能拉升流量和利润。
关联规则常用的指标
我们都知道做任何分析的时候都要有具体的指标,关联分析也是这样,在关联分析中最常用的几个指标如下:
关联度:指两款或两款以上的商品同时被购买的概率或商品组合购买次数占总商品购买次数的比例,例如一千次商品交易中出现固定两款产品的的次数是70次,那么他的关联度就是7%。
计算方式为关联度=概率函数(商品A&商品B)/总购买次数
例如顾客同时购买麻辣香锅和夫妻肺片的次数是27次,当天总单量是300单,那么关联度就是27/300=0.09也就是9%。
置信度:指在数据中已经出现商品A的时候,B出现的概率。置信度的计算公式是商品AB同时出现的概率/商品A出现的概率。
相关性分析的局限性
1、重视非线性相关性
如果两者之间存在很小的关联性,例如孩子的体重一般是随着年龄的增长而增长,但是体重如果用相关性来分析的话相关系数就较低,所以,一定要注意观测对象之间存在的线性相关性程度。(肯德尔相关系数比较合适)
2、注意样品数据的抽样偏差
很多的时候,我们在分析的时候所使用的数据可能对反映数据基本概率分布情况方面较差,不具备代表性。例如使用医院的入院数和急诊科数据来研究流行病致死率,那么得出的结果一定比社会整体人群的实际情况要高很多,因为病人只有病症严重或者有其他疾病才会去医院,普通流行病可能会选择自治。
在这里分析一个有趣的故事,当年谷歌上线了一款流感预测软件,通过搜索引擎中对流感症状词语的抓取和相关药物关键词的抓取,来判断各区域中的流感趋势,这个软件一上线对流感流行的预测非常准确,甚至比政府卫生部门来的更准确更快速,因为卫生部门是在显现流行之后才会感知,而谷歌的这个软件是在显现之前通过技术手段预测,所以当时被很多人所赞叹。但是过了两年之后这个软件却下架了,为什么呢?因为人们发现他预测的不准了,说这个的确要发生流感,结果没事。很多学者和社会科学人员就很奇怪,于是去调查,结果调查结果让大家哭笑不得,因为这个软件对预测很准,因为他是通过搜索引擎抓取实时数据,所以他一旦发现那个地区的警戒关键词超过阈值之后,就会进行警示,而人们受到警示之后就会主动的避免,减少聚集、注意通风、加强锻炼等方式来避免这个情况,这就造成流感刚刚准备露头结果被阻断了。这也是大数据分析中一个很经典的案例。
3、找到伪相关性
使用相关性的风险之一在于,对于两个变量之间的任何相关性,我们都可能会找到一些理由理解来解释这种相关性是如何产生的,从而导致人们对结果过分自信。
一个关于数据挖掘的著名案例是,有人利用杂货店的交易数据发现了人们经常同时购买尿布和啤酒这一现象。于是有人认为,经常在周末来临之前去商店买尿布的男士,会顺便买一些啤酒来”奖励“自己。但是当追踪到这个故事的根源之后,Daniel Power(2002)发现最初的相关性数据并没有提到性别以及时间因素,更没有像有些人说的那样 -- 杂货店特意将这两样商品放得很近,以便一起销售来增加收益。
4、相关性的使用范围限制
Amazon网站发现,购买某个校园剧和购买AP考试(美国大学预修课程考试)复习用书这两个行为高度相关。很明显,美国青少年是这两种购买行为的主体。
如果Amazon网站只想向同一购买数据群体(美国本土)推荐这些商品,那么他们不知道这两种购买行为的主体也没有关系。但如果Amazon网站开始把AP复习用书推荐给其他国家的顾客,那应该没多少人会买,因为这些考试的参与者主要是美国学生。所以,即便某种相关性既真实存在又十分可靠,如果我们试图将它用在另一个不具备让这相关性起作用的特征的群体中,那么它可能不会起到任何预测作用。Amazon从美国本土购买者身上得到的相关性,并没有告诉我们为什么这些事物之间存在联系 --- 购买者都是十六七岁、正在准备AP考试、喜欢看主人公年龄和他们相仿的电视剧,没有这些因果信息,我们很难将这种相关性推广到全世界去进行推荐预测。
以上是在本周学习的一些知识,在下周会将因果性进行分析,然后在寻找一些数据通过关联性和因果性进行分析。