暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

L1正则化与L2正则化的详细推导与区别(明天减仓)

量化分析之路 2020-06-07
705


持仓还是如右图 没什么好说的 美股新高  个人觉得风险谝高




L1和L2正则化:

        我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度惩罚项。现在还是以最熟悉的线性回归为例子。


优化目标:

min                  


加上L1正则项(lasso回归):


min            

加上L2正则项(岭回归):


min                


等值线:


带 正则化的 损失函数   可以看做 带约束条件的 函数求解。


L1正则 更多的可能性相交在坐标轴上 所以 会有W的值为0  所以具有稀疏性



贝叶斯先验概率的角度:

        现在再从贝叶斯学派的观点来看看正则化,即是我们先假设要求的参数服从某种先验分布,以线性回归为例子,我们之前讲过,用高斯分布的极大似然估计求线性回归。

bingo酱:线性回归求解的两种表示(最小化均方误差和基于高斯分布的极大似然估计)

1. 在我们求解的时候,我们假设Y|X; 服从 的正太分布 ,即概率密度函数 ,然后利用极大似然估计求解参数

max        式子(4)

或者表示成常用的求极小值:

min       式子(5)

2. 在贝叶斯学派的观点看来,如果我们先假设参数 服从一种先验分布 ,那么根据贝叶斯公式 ,那我们利用极大似然估计求参数 的时候,现在我们的极大似然函数就变成了:

max      式子(6)

表示成求极小的情况就是:

min      式(7)

对比式子(5)和式子(7),我们看到,式子(7)比式子(5)多了最后的一个求和项。

L1范数:

假设我们让 服从的分布为标准拉普拉斯分布,即概率密度函数为 ,那么式子(7)多出的项就变成了 ,其中C为常数了,重写式子(7):

min      式子(8)

熟悉吧,这不就是加了L1范数的优化目标函数么。假设 服从拉普拉斯分布的话,从下图可以看出 的值取到0的概率特别大。也就是说我们提前先假设了 的解更容易取到0。

                                               拉普拉斯分布

L2范数:

假设我们让 服从的分布为标准正太分布,即概率密度为 ,那么式子(7)多出的项就成了 ,其中C为常数,重写式子(7):

min      式子(9)

熟悉吧,这不就是加了L2范数的优化目标函数么。假设 服从标准正太分布的话,根据图我们可以看出,其实我们就是预先假设了 的最终值可能取到0附近的概率特别大。

                                                        高斯分布


说实话   贝叶斯概率分布我还没太看懂 后面慢慢研究

文章转载自量化分析之路,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论