比Adam快2倍！斯坦福提出Sophia：大模型预训练新优化器，成本减半！

日期：2024-12-29 作者：hubinusb

核心提示：鉴于语言模型预训练成本巨大，因而研究者一直在寻找减少训练时间和成本的新方向。Adam 及其变体多年来一直被奉为最先进的优化器

鉴于语言模型预训练成本巨大，因而研究者一直在寻找减少训练时间和成本的新方向。Adam 及其变体多年来一直被奉为最先进的优化器，但其会产生过多的开销。本文提出了一种简单的可扩展的二阶优化器 Sophia，在与 Adam 比较中，Sophia 在减少了 50% step 数量的情况下实现了与 Adam 相同的验证预训练损失。

大语言模型（LLM）的能力随着其规模的增长而取得了显著的进展。然而，由于庞大的数据集和模型规模，预训练 LLM 非常耗时，需要进行数十万次的模型参数更新。例如，PaLM 在 6144 个 TPU 上进行了为期两个月的训练，总共耗费大约 1000 万美元。因此，提高预训练效率是扩展 LLM 规模的一个主要瓶颈。

本文来自斯坦福大学的研究者撰文《 Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training 》，文中提出了 Sophia（Second-order Clipped Stochastic Optimization）轻量级二阶优化器，旨在通过更快的优化器提高预训练效率，从而减少达到相同预训练损失所需的时间和成本，或者在相同预算下实现更好的预训练损失。

论文地址：https:///abs/2305.14342

代码：https://github.com/kyegomez/Sophia

Sophia 优化器使用随机估计作为 Hessian 矩阵对角线的 pre-conditioner，并采用剪切（clipping）机制来控制最坏情况下的参数大小更新。在像 GPT-2 这样的预训练语言模型上，Sophia 与 Adam 相比，在减少了 50% step 数量的情况下实现了相同的验证预训练损失。

由于 Sophia 可以维持每个 step 内的的内存和所用时间，这相当于总计算量减少了 50%，wall-clock 时间减少了 50%(参见图 1 (a) 和 (b))。此外，根据扩展定律（从模型大小的角度），在 125M 到 770M 的模型上，Sophia 相对于 Adam 更具优势，并且随着模型大小的增加，Sophia 和 Adam 差距也在增加（在 100K step 内）（图 1（c））。特别的，在 540M 参数模型上（100K step），Sophia 和具有 770M 参数模型上的 Adam 实现了相同的验证损失。需要注意的是，后者需要多达40％的训练时间和 40％的推理成本。

这项研究也得到了大家的认可。英伟达人工智能科学家 Jim Fan 表示：「多年来，有无数论文推翻了 Adam 优化器，不知道 Sophia 会不会是保留到最后的那个，这是一个可扩展的二阶优化器，其伪代码只有 13 行，在 GPT-2 （预训练）上比 Adam 快了 2 倍，我很想试试这个优化器！」

论文作者之一、斯坦福大学助理教授马腾宇表示：「（从发布之初，）Adam 可以说是一个 9 岁的优化器，是训练 LLM 的首选，如 GPT-3、OPT、 LLAMA 等。而我们的新研究 Sophia 是一个崭新的优化器，在 LLM 上比 Adam 快了 2 倍。只需要你多写几行代码，你的成本就能从 200 万美元降至 100 万美元（如果扩展定律成立的话）。」

本文地址：http://w.yusign.com/tjnews/4127.html 述古往 http://w.yusign.com/static/ , 查看更多

标签： 训练模型化器

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0

更多>同类生活信息

相关文章

最新文章

推荐文章

推荐图文

生活信息

点击排行

{

• TI在物联网和AI边缘计算中落伍了吗？	• PyTorch 指南：17个技巧让你的深度学习模型训练
• 青岛临港管区阿斯伯格症训练培训学校培训学费要	• 阶跃星辰推出千亿端到端语音大模型Step-1o丨360
• 用大语言模型帮助孤独症康复训练数药智能《AI	• AO发布“AI on AO”计划，欲将各种AI模型上链
• Detect AI Generated(Kaggle竞赛)	• CLIP-GEN：基于CLIP的无语言训练文本转图像生
• 高考语文论述文本阅读”人工智能chatGPT“专题	• 打造自己的大模型｜01篇LLaMA-Factory微调Llama