Kaggle知识点：伪标签Pseudo Label

6914

Pseudo Label

伪标签介绍

伪标签（Pseudo Label）是半监督学习中的一个概念，能够帮助模型更好的从无标注的信息中进行学习。

与完全的无监督学习相比，半监督学习拥有部分的标注数据和大量的未标注数据，这种形式也更加适合现实场景和竞赛场景。

那么如何完全将未标注的数据利用起来呢？

在半监督学习中伪标签是其中的方法，具体思路如下：首先利用现有的标注数据，训练得到一个模型；利用训练得到的模型对无标注数据进行预测；然后将无标注数据的预测标签和数据加入训练集一起训练；

伪标签的思路非常简单，在竞赛中非常常见，但上述步骤并不是完全直接预测所有的未标注数据，也不是将所有的未标注数据预测后一起进行训练。

在竞赛中伪标签不是万能的，一般情况下伪标签适用于：

在竞赛中，根据Kaggle的机制伪标签可以分为：

虽然Kernel机制防止了选手人工标注，但还是这届选手有水平呀！

伪标签 vs 软标签

伪标签与软标签名字上比较类似，两者很容易弄混淆：

软标签一般使用在模型蒸馏和某些数据集的训练中，可以让模型学习到样本整体类别分布。同时软标签与硬标签（Hard Label）相比，软标签可以防止模型过拟合，也可以配合mixup一起进行使用。

当然也可以将软标签与伪标签同时使用，如下图的思路。在图中照片的原始标签为car，但照片还有person的类别，如果直接使用硬标签进行训练，会带来一定的模型噪音。

可以将模型的预测概率结果（每类概率分布）代替原始图片的标签进行训练，这样图片的标签就更加合理，模型训练过程也会更加稳定。

伪标签注意事项

伪标签竞赛案例

https://www.kaggle.com/cdeotte/pseudo-labeling-qda-0-969

https://www.kaggle.com/nvnnghia/fasterrcnn-pseudo-labeling

https://www.kaggle.com/nvnnghia/yolov5-pseudo-labeling

https://www.kaggle.com/c/challenges-in-representation-learning-the-black-box-learning-challenge/discussion/4726

赛事交流群已成立

一起组队参赛，baseline交流分享

如果加入了之前的社群不需要重复添加！

若进群失败，可在Coggle后台回复【竞赛群】

即可得到最新的二维码！

文章转载自Coggle数据科学，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

Instant Gratification，kernel赛