论文:Mean teachers are better role models: Weight-averaged consistency targets improvesemi-supervised deep learning results
代码:https://github.com/CuriousAI/mean-teacher
出处:NIPS2017
本文的目标是在学生模型和教师模型完全相同的情况下,从学生模型中逐步形成一个表现更好的教师模型。
首先,由于模型的 softmax 输出通常不能获得在训练数据之外的准确预测,所以可以考虑在训练数据中添加一些噪声来缓解,有噪声的教师模型可以产生更准确的结果,如图 1d 所示
其次,π\piπ 模型 [13] 通过时间集成来进一步的改进教师模型。但每个目标每次迭代值更新一次,学习到的信息注入非常缓慢。
故本文提出了 Mean Teacher,通过平均模型的权重而不是预测的结果来更新 Teacher 模型。
本文方法结构框架如图 2 所示
Teacher model 的模型参数是通过 Student model 的模型参数指数移动平均来获得的。
总体过程:
两个分布的一致性的程度 J(θ)J(\theta)J(θ) 定义为学生模型的预测(权重为 θ\thetaθ,噪声为 η\etaη)与教师模型的预测(权重为 θ′\theta'θ′,噪声为 η′\eta'η′)之间的期望差距:
定义教师网络第 t 个 training step 的参数 θt′\theta_t'θt′ 为第 t-1 个 traing step 的参数加上当前学生网络的参数,α\alphaα 为系数