暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

线性回归--一元线性回归、多元线性回归、多项式回归

糟老头修炼记 2020-07-21
7580

1.回归分析(Regression Analysis):确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

按涉及变量个数划分:一元回归分析、多元回归分析

按自变量和因变量之间关系划分:?线性回归分析、?非线性回归分析

 

2.回归分析主要解决两个问题:

一是确定几个变量之间是否存在相关关系,如果存在,找出它们之间适当的数学表达式。

二是根据一个或几个变量的值,预测或控制另一个或几个变量的值

 

变量间的关系:确定性关系

确定性关系是指当一些变量的值确定以后另一些变量的值也随之完全确定的关系,这些变量间的关系完全是已知的,变量之间的关系可以用函数关系来表示。

变量间的关系:非确定性关系

非确定性关系是指变量之间有一定的依赖关系,变量之间虽然相互影响和相互制约,但由于受到无法预计和控制的因素的影响,使得变量间的关系呈现不确定,当一些变量的值确定以后,另一些变量值虽然随之变化,却不能完全确定,这时变量间的关系就不可以精确地用函数来表示,即不能由一个或若干变量的值精确地确定另一变量的值

 

3.回归分析的步骤:

(1)确定变量。寻找与预测目标的相关影响因素,即自变量,并从中选出主要的影响因素。

(2)建立预测模型。依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析预测模型。

(3)进行相关分析。作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关程度。

(4)计算预测误差。回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。

(5)确定预测值。利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值

 

4.  一元线性回归模型:一元线性回归模型只包含一个解释变量(自变量)和一个被解释变量(因变量),是最简单的线性回归模型。

一元线性回归模型为:Y=a+bX+ε

其中, X为自变量, Y为因变量;a 为截距,是一常量;b为回归系数,表示自变量对因变量的影响程度;ε为随机误差项。

模型特点:

① Y是X 的线性函数加上误差项。

②线性部分反映了由于 X的变化而引起的 Y的变化。

③误差项ε 是随机变量,反映了除 X和 Y之间的线性关系之外的随机因素对Y 的影响,它是一个期望值为0的随机变量,即 E(ε)=0;也是一个服从正态分布的随机变量,且相互独立,即 ε~N(0,σ^2)。

④对于一个给定的 X值,Y 的期望值为 E(Y)=a+bX, 称为Y 对 X的回归

 

 (2).  回归方程

 


<1>总平方和TSS表示因变量的 n 个观察值与其均值的误差总和, TSS 是各个数据离差的平方和

<2>回归平方和ESS表示自变量 x 的变化对因变量 y 取值变化的影响,ESS是各个数据回归差的平方和

<3>残差平方和RSS表示实际值与拟合值之间的差异程度, RSS 是各个数据残差的平方和。

TSS、ESS、RSS三者之间关系为:TSS=ESS+RSS

 

拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度。度量拟合优度的统计量是决定系数(亦称确定系数) 

其中R^2属于[0,1],R^2 越接近于1,说明回归曲线拟合度越好;R^2 越小,说明回归曲线拟合度越差。R^2 =0时,表示自变量 与因变量没有线性关系。R^2 =1 时,表示回归曲线与样本点重合

 

(3).  线性关系的显著性检验

采用 F 检验来度量一个或多个自变量同因变量之间的线性关系是否显著。F  检验( F  test)运用服从 F分布的统计量或方差比作为统计检验,通过 显著性水平(SignificantLevel) 检验回归方程的线性关系是否显著。

 

其中 k 为自由度(自变量的个数),n 为样本总量。对于一元线性回归方程,只有一个自变量x ,所以k=1。

F  值越大说明自变量和因变量之间在总体上的线性关系越显著。反之线性关系越不显著

 

(4).  回归参数的显著性检验

采用 t 检验对回归参数进行显著性检验,t 检验检测变量 x 是否是被解释变量 y 的一个显著性的影响因素,t 检验是用于样本的两个平均值差异程度的检验方法。它是用 T 分布理论来推断差异发生的概率,从而判断两个平均数的差异是否显著。

K为自由度,n为样本总量,RSS为残差平方和。


5.多元线性回归模型:

多元线性回归模型表示的是多个解释变量(自变量)与一个被解释变量(因变量)之间的线性关系。

设被解释变量Y 与多个解释变量X1,X2,X3,,,之间具有线性关系,称为多元线性回归模型,即:Y =a+ b1 X1 +b2 X2 +bkXk+ ε

其中, Y是被解释变量, Xi是解释变量。ε表示随机误差。

 

模型特点:

① Y与 Xi之间具有线性关系

②各个观测值 Yi( =1,2,…,n)之间相互独立

③随机误差ε~N(0, σ^2)


线性关系的显著性检验

可以使用F检验对多元线性回归方程进行线性关系的显著性检验。对于多元线性回归方程,自变量个数为n,所以k=n。所求F值越大说明线性关系越显著,反之越不显著

 

回归参数的显著性检验

可以使用t检验对多元线性回归方程进行回归参数的显著性检验。对于多元线性回归方程,自变量个数为n,故需分别对n个回归参数进行t检验,分别检验各个回归参数是否对回归方程有显著性影响

 

6.研究一个因变量与多个自变量之间的多项式关系称为多项式回归,若自变量的个数为1,则称为一元多项式回归;若自变量的个数大于1,则成为多元多项式回归。一元k次多项式回归方程为 :

 

x:自变量;b1,b2,,,bk:多项式系数;a:多项式截距

最简单的多项式是二次多项式。其中一元二次多项式方程为:

 


文章转载自糟老头修炼记,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论