ICCV 2021
AI科技评论报道
论文地址:https://arxiv.org/abs/2011.12498
二维人体姿态估计在公开数据集上的精度不断获得提升,但因为部署场景和训练数据的差异,绝大多数模型在实际使用时都会面临泛化性能降低这一挑战。半监督学习为解决这一问题提供了可能,它利用少量标注数据和大量无标注数据(比如来自实际部署场景)进行共同训练,期望提升模型在目标场景下的泛化能力。
目前半监督学习的方法中,结果最好的方法大多基于一致性训练(Consistency-based)[1][2]。也就是要求模型在一张图像的不同扰动(Perturbation)上产生一致的输出,从而去探索无标签图像中存在的特征。一致性损失如公式所示,
但当我们把这些方法应用到二维人体姿态估计时,我们发现大部分的一致性训练方法都遇到了模型坍塌的问题(Model Collapsing)——
模型在有标注的图像上能够预测出正确的heatmap,但在无标注的图像上对每个像素的预测都是0。
注意在这种情况下,虽然一致性损失是最小的,但模型在无标签数据上却没有学到任何有意义的信息。
图1. 经典的一致性训练方法在二维人体姿态估计任务上的表现。(a) 预测 Heatmap 响应的变化。(b) 平均精确率的变化。
具体情况如图1 (a) 所示,随着训练次数的增加,模型在无标注数据上产生退化的输出(整张图像被预测成背景)。有意思的是模型在标注数据上依然能够产生正确的输出,这个观察意味着网络能够区分训练图像来自于无标注/有标注数据集。在图1 (b) 中,模型在验证数据集上的精度逐渐接近于0,可确认此时发生了退化。
在文章里,我们通过实验对这个现象进行了深入分析,发现可能是类别不均衡问题导致的。在人体姿态估计任务中,一张图像中绝大部分像素属于背景,只有一小部分属于前景(对应关节点附近的高斯区域)。因此该任务中存在非常严重的类别不均衡问题。
当模型针对两个
对应
的像素(来自于两个 Perturbations)产生不一致的预测时
,比如一个预测为1(前
景),一个预测为0(背景)。
经典的一致性训练方法中,试图
同时更新两个预测值
,从而移动决策边界,使得两者位于边界的同一侧。
而因为类别不均衡问题的存在,决策边界倾向于移动到全局来看样本数目更稀疏的少数类别区域(也就是前景)。
因此,随着训练的进行,我们发现越来越多的像素被预测成背景。
图示分析可见图2。
参考文献
[1] Kihyuk Sohn, David Berthelot, Chun-Liang Li, Zizhao Zhang, Nicholas Carlini, Ekin D Cubuk, Alex Kurakin, Han Zhang, and Colin Raffel. Fixmatch: Simplifying semisupervised learning with consistency and confidence. In Advances in Neural Information Processing Systems, 2020.
雷锋网雷锋网 (公众号:雷锋网) 雷锋网
雷锋网版权文章,未经授权禁止转载。详情见。