关键词:
半监督学习
伪标签生成
最优传输
图像分类
深度学习
摘要:
目前,深度学习广泛应用于各个领域并取得了优异的表现,这通常需要大量标注数据的支持,而大量标注数据的获取往往意味着高昂的成本与苛刻的应用条件.因此,随着深度学习的发展,如何在实际场景下突破数据限制,成为目前重要的研究目标,而半监督学习正是其中一大研究方向.半监督学习通过利用大量的未标记数据辅助少量的标记数据进行学习,很好地减轻了深度学习的数据需求压力.伪标签生成方法是当前半监督学习的重要组成部分,所生成的伪标签质量的优劣会很大程度影响半监督学习的最终效果.聚焦半监督学习中的伪标签生成问题,提出基于最优传输理论的伪标签生成方法.所提方法在将有标签信息作为生成过程引导的同时引入类别均衡约束,在此基础上将半监督学习的伪标签生成过程转换成最优传输优化问题,给出新的求解伪标签生成问题的形式.为求解该优化问题,引入Sinkhorn-Knopp算法进行近似快速求解,避免不可计算问题.所提伪标签生成方法作为半监督学习中的独立过程可结合当前一致性正则等半监督学习技巧构成完整的半监督学习过程.最终,在CIFAR-10、SVHN、MNIST、FashionMNIST这4大公共经典图像分类数据集上进行实验,验证方法的有效性.实验结果显示,所提方法与当前先进的半监督学习方法相比,均取得更优异的结果,尤其是在标签情况较少的情况下提升显著.