斯坦福研究人员推出 Sophia 可高效低成本训练大模型

站长网2023-07-26 16:13:050阅

斯坦福大学的研究人员开发了一种名为 Sophia 的新型优化器，可将语言模型的预训练时间缩短一半。相比于 Adam 优化器，Sophia 可以更快地解决语言模型的问题。

Sophia 通过轻量级估计对角 Hessian 矩阵作为二阶优化器的预条件。在更新之后，通过取梯度的平均值除以估计 Hessian 的平均值来进行元素级别的剪切。

这种剪切限制了最坏情况下更新的大小，并减轻了轨迹的非凸性和快速 Hessian 变化的影响。Sophia 的平均每步时间和内存开销都很低，因为它只在每几次迭代中估计对角 Hessian 矩阵。在使用 GPT-2模型进行语言建模时，Sophia 相比于 Adam 的速度提升了一倍，包括步数、计算量和墙上时间。

研究人员还展示了 Sophia 可以适应语言建模任务中的大参数变化。这项工作的运行时限与损失函数的条件数无关。总的来说，Sophia 优化器的实现简单，使用 PyTorch 时只需在梯度之前加上对角 Hessian 的轻量级估计即可。Sophia 还可以确保所有参数

维度上的一致损失减少，通过在尖锐尺寸（具有大 Hessian）上更严厉地惩罚更新，而在平坦维度(具有小 Hessian)上较轻地惩罚更新。学术界即使资源有限，也可以研究语言模型的预训练并开发出新的有效算法。研究人员在研究过程中广泛使用了理论推理，并在明天发布的代码中使用了稍微修改过的学习率的定义。