【半监督学习】1、Mean Teacher | 对 student model 权重进行 EMA 来加速更新 teacher model
创始人
2025-05-29 13:50:40

在这里插入图片描述

文章目录

    • 一、背景
    • 二、方法
    • 三、效果

论文:Mean teachers are better role models: Weight-averaged consistency targets improvesemi-supervised deep learning results

代码:https://github.com/CuriousAI/mean-teacher

出处:NIPS2017

一、背景

本文的目标是在学生模型和教师模型完全相同的情况下,从学生模型中逐步形成一个表现更好的教师模型。

首先,由于模型的 softmax 输出通常不能获得在训练数据之外的准确预测,所以可以考虑在训练数据中添加一些噪声来缓解,有噪声的教师模型可以产生更准确的结果,如图 1d 所示

其次,π\piπ 模型 [13] 通过时间集成来进一步的改进教师模型。但每个目标每次迭代值更新一次,学习到的信息注入非常缓慢。

故本文提出了 Mean Teacher,通过平均模型的权重而不是预测的结果来更新 Teacher 模型。

在这里插入图片描述

二、方法

本文方法结构框架如图 2 所示

Teacher model 的模型参数是通过 Student model 的模型参数指数移动平均来获得的。

在这里插入图片描述

总体过程:

  • 假设有带标签的数据 labeled data x1x_1x1​ 和无标签的数据 unlabeled data x2x_2x2​,对种数据分别添加噪声
  • 首先,将有标签的数据 x1x_1x1​ 输入学生模型,得到预测结果 y1sy^s_1y1s​,并计算交叉熵损失为 loss1
  • 然后,将无标签的数据 x2x_2x2​ 输入学生模型,得到预测结果 y2sy^s_2y2s​,同时,将无标签的数据 x2x_2x2​ 输入教师模型,得到预测结果 y2ty^t_2y2t​,求两个预测结果的损失 loss2,即 J(θ)J(\theta)J(θ),也就是求两个输出的均方误差
  • 接着,计算总损失 loss1 + loss2
  • 最后,学生模型的权重通过梯度反向传播更新,教师模型的权重通过指数移动平均来更新

两个分布的一致性的程度 J(θ)J(\theta)J(θ) 定义为学生模型的预测(权重为 θ\thetaθ,噪声为 η\etaη)与教师模型的预测(权重为 θ′\theta'θ′,噪声为 η′\eta'η′)之间的期望差距:

在这里插入图片描述

定义教师网络第 t 个 training step 的参数 θt′\theta_t'θt′​ 为第 t-1 个 traing step 的参数加上当前学生网络的参数,α\alphaα 为系数

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

相关内容

热门资讯

玩家必看“新战皇牛牛是不是有透... 您好:新战皇牛牛这款游戏可以开挂,确实是有挂的,需要了解加客服微信【69174242】很多玩家在新战...
分享实测“蜀渝牌乐汇透视挂下载... 您好:蜀渝牌乐汇这款游戏可以开挂,确实是有挂的,需要软件加微信【6355786】,很多玩家在蜀渝牌乐...
重大通报“宝宝浙江游戏有没有透... 您好:宝宝浙江游戏这款游戏可以开挂,确实是有挂的,需要软件加微信【6355786】,很多玩家在宝宝浙...
重大通报“琼戏互娱透视挂下载”... 您好:琼戏互娱这款游戏可以开挂,确实是有挂的,需要软件加微信【6355786】,很多玩家在琼戏互娱这...
重磅.来袭“ 乐奕互娱究竟是不... 亲:乐奕互娱这款游戏是可以开挂的,确实是有挂的,添加客服【6713992】很多玩家在这款游戏中怀疑是...