首页站长资讯DeepMind提出语言模型训练新方法DiLoCo 通信量减少500倍

DeepMind提出语言模型训练新方法DiLoCo 通信量减少500倍

站长网2023-11-28 15:56:001阅

要点:

DeepMind的研究团队提出了分布式低通信（DiLoCo）训练语言模型的方法，采用分布式优化算法，使语言模型在连接性较差的设备集群上训练，性能超过完全同步模型，通信开销减少500倍。

DiLoCo借鉴联邦学习文献，采用一种变体的联邦平均（FedAvg）算法，结合动量优化器，通过将内部优化器替换为AdamW和外部优化器替换为Nesterov Momentum，有效应对传统训练方法的挑战。

DiLoCo通过限制共位要求、降低通信频率和设备异构性等三个关键因素，实现了在多台设备可用但连接较差的情况下，分布式训练变压器语言模型的鲁棒性和效果，并在C4数据集上展现出与完全同步优化相媲美的性能。

DeepMind的最新研究在语言模型训练领域取得突破，提出了分布式低通信（DiLoCo）方法。这一方法采用分布式优化算法，使得语言模型可以在连接性较差的设备集群上训练，不仅性能超越完全同步模型，而且通信开销降低了500倍。为了实现这一创新，研究人员借鉴了联邦学习文献，提出了一种基于动量优化器的联邦平均算法的变体，通过替换内部和外部优化器，成功应对传统训练方法的工程和基础设施挑战。