论文题目:RANGER21: A SYNERGISTIC DEEP LEARNING OPTIMIZER
论文链接:https://arxiv.org/pdf/2106.13731.pdf
由于对神经网络的性能至关重要,因此每年都会发表大量关于该主题的创新论文。 然而,虽然这些发表论文中的大多数都提供了对现有优化算法的增量改进,它们倾向于作为新的优化器而不是可组合算法呈现。 因此,许多有价值的改进在最初的论文中很少见。 利用这一未开发的潜力(之前论文都没有对现有优化器进行组合),这篇论文引入了 Ranger21,这是一种新的优化器,它结合了 AdamW 和八个组件,这些组件由作者在审查和测试论文思想和效果后后精心挑选的。论文实验发现发现由此产生的优化器显着提高了验证准确性和训练速度、更平滑的训练曲线,甚至能够在没有批量归一化层的情况下在 ImageNet2012 上训练 ResNet50,解决 AdamW 系统地停留在糟糕的初始状态的问题。
Ranger 21深度学习优化器整合了以下优化思想,尤其是:
- 使用 AdamW 优化器作为其核心(或者,可选的 MadGrad)
- Adaptive gradient clipping:自适应梯度裁剪
- Gradient centralization:梯度中心化
- Positive-Negative momentum:正负动量
- Norm loss:权重软正则化
- Stable weight decay:稳定权重衰减
- Linear learning rate warm-up:线性学习率预热
- Explore-exploit learning rate schedule:搜索性的学习率规划器
- Lookahead
- Softplus transformation:激活函数
- Gradient Normalization:梯度归一化
2.1 AdamW (adaptive moment estimation):核心优化器
2.2 Adaptive Gradient Clipping:自适应梯度裁剪
2.3 Gradient Centralization
梯度中心化对损失函数施加了约束,并充当正则化器,据作者说,该算法使训练更加平滑。 在实验中,当在包含全连接层和/或卷积层的网络上使用它时,我们观察到改进的泛化、更平滑的训练曲线和更快的收敛。
2.4 Positive-Negative Momentum:正负动量
在本篇论文的测试中,作者能够通过实验验证正负动量确实可以提高各种数据集的性能,并以互补的方式与 Ranger21 中使用的其他算法进行集成。
2.5 Norm loss:权重软正则化
2.6 Stable Weight Decay
AdamW 风格的权重衰减使用优化器的学习率来对衰减进行加权。然而,实际步长不仅是学习率的函数,也是 的函数,它代表了梯度大小。 因此,实际步长在迭代过程中发生变化,并且当 v^︁t 下降到零时,为训练的第一次迭代校准的权重衰减对于以后的迭代来说太大了。
2.8 Explore-Exploit learning rate schedule
Wide-minima Density Hypothesis and the Explore-Exploit Learning Rate Schedule:论文指出宽最小值比窄最小值更好地泛化。 在本文中,通过详细的实验,不仅证实了宽极小值的泛化特性,我们还为宽极小值的密度可能低于窄极小值的密度的新假设提供了经验证据。 此外,在这一假设的推动下设计了一个新颖的探索-利用学习率计划。 在各种图像和自然语言数据集上,与其原始手动调整的学习率基线相比,同时表明我们的探索-利用计划可以使用原始训练预算将绝对准确度提高 0.84% 或高达 57% 减少训练时间,同时达到原始论文的准确性。
2.9 Lookahead
Lookahead2,一种由保持权重的指数移动平均值组成的技术,每 k 步(默认为 5)更新并替换为当前权重。 为了实现 Lookahead,可以在通常的优化步骤结束时应用算法 3(其中 βlookahead 是移动平均线的动量,默认为 0.5)。
3 Ranger21
4 实验结果与总结
许多论文对现有优化器进行了增量改进,将它们呈现为新的优化器,而不是可以组合的模块。 本篇论文为了充分利用正在进行的深度学习优化研究,意识到这种模块化很重要,所以设计 Ranger21 是为了突出从这种组合中获得的好处:测试并将多个独立的改进组合成一个明显优于其单个部分的单一优化器。