【半监督学习】1、Mean Teacher | 对 student model 权重进行 EMA 来加速更新 teacher model
创始人
2025-05-29 13:50:40

在这里插入图片描述

文章目录

    • 一、背景
    • 二、方法
    • 三、效果

论文:Mean teachers are better role models: Weight-averaged consistency targets improvesemi-supervised deep learning results

代码:https://github.com/CuriousAI/mean-teacher

出处:NIPS2017

一、背景

本文的目标是在学生模型和教师模型完全相同的情况下,从学生模型中逐步形成一个表现更好的教师模型。

首先,由于模型的 softmax 输出通常不能获得在训练数据之外的准确预测,所以可以考虑在训练数据中添加一些噪声来缓解,有噪声的教师模型可以产生更准确的结果,如图 1d 所示

其次,π\piπ 模型 [13] 通过时间集成来进一步的改进教师模型。但每个目标每次迭代值更新一次,学习到的信息注入非常缓慢。

故本文提出了 Mean Teacher,通过平均模型的权重而不是预测的结果来更新 Teacher 模型。

在这里插入图片描述

二、方法

本文方法结构框架如图 2 所示

Teacher model 的模型参数是通过 Student model 的模型参数指数移动平均来获得的。

在这里插入图片描述

总体过程:

  • 假设有带标签的数据 labeled data x1x_1x1​ 和无标签的数据 unlabeled data x2x_2x2​,对种数据分别添加噪声
  • 首先,将有标签的数据 x1x_1x1​ 输入学生模型,得到预测结果 y1sy^s_1y1s​,并计算交叉熵损失为 loss1
  • 然后,将无标签的数据 x2x_2x2​ 输入学生模型,得到预测结果 y2sy^s_2y2s​,同时,将无标签的数据 x2x_2x2​ 输入教师模型,得到预测结果 y2ty^t_2y2t​,求两个预测结果的损失 loss2,即 J(θ)J(\theta)J(θ),也就是求两个输出的均方误差
  • 接着,计算总损失 loss1 + loss2
  • 最后,学生模型的权重通过梯度反向传播更新,教师模型的权重通过指数移动平均来更新

两个分布的一致性的程度 J(θ)J(\theta)J(θ) 定义为学生模型的预测(权重为 θ\thetaθ,噪声为 η\etaη)与教师模型的预测(权重为 θ′\theta'θ′,噪声为 η′\eta'η′)之间的期望差距:

在这里插入图片描述

定义教师网络第 t 个 training step 的参数 θt′\theta_t'θt′​ 为第 t-1 个 traing step 的参数加上当前学生网络的参数,α\alphaα 为系数

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

相关内容

热门资讯

年仅46岁!“量子通信第一股”... 12月18日晚,国盾量子(688027.SH)董事会公告,公司董事长吕品不幸逝世。 据悉,吕品于20...
政策协同发力!消金机构掘金下沉... “加快补上内需特别是消费短板”成为推动中国经济增长的重要议题。日前召开的中央经济工作会议指出“国内供...
A股缩量走弱,接下来怎么走? 12月18日,A股缩量分化,日成交额跌破1.7万亿元。价值股护盘,科技股回吐,沪市跑赢深市。受访人士...
老字号健康产品“鱼龙混杂”,谁... “同仁堂”涉嫌磷虾油造假事件还在进一步发酵。北京同仁堂股份有限公司(同仁堂,600085.SH)日前...
罗永浩开炮,大佬不断出走,俞敏... 订阅 快刀财经 ▲ 做您的私人商学院经营企业并不能只靠情感,合理的运作机制才是根本。作者:唐纳德来源...