MIT微软证实GPT-4具备自我纠错能力较弱的模型则没有这种能力

站长网2023-07-05 19:13:321阅

最近，麻省理工学院（MIT）和微软的研究学者发现，GPT-4在自修复方面表现出了有效能力，而GPT-3.5则没有。此外，GPT-4还能够对GPT-3.5生成的代码提供反馈。

大型语言模型（LLM）已经被证明可以从自然语言中生成代码片段，但在应对复杂的编码挑战，例如专业竞赛和软件工程专业面试时，仍然面临巨大挑战。最近的研究试图通过自修复来提高模型的编码性能，自修复是指模型反思并纠正自身代码中的错误。

论文地址：https://arxiv.org/pdf/2306.09896.pdf

从本研究的实验中，研究者得出以下发现:

考虑到检查和修复的成本，只有GPT-4的自修复能力能够提供性能收益;对于GPT-3.5，在所有配置下，修复的通过率低于或等于基线模型或无修复方法的通过率。

即使对于GPT-4，性能提升也是适度的（从66%提升到71%的通过率），而且取决于初始程序是否具有足够的多样性。实验的预算是使用7000个标记，约45个独立同分布(i.i.d.)的GPT-4样本。

使用GPT-4生成的反馈替代GPT-3.5对错误的解释，可以获得更好的自修复性能，甚至超过了基线的无修复GPT-3.5方法（从50%提升到使用7000个标记时的54%）。

使用人类的解释代替GPT-4自身的解释可以显著改善修复结果，从而使通过测试的修复程序数量增加57%。

爱丁堡大学的博士生符尧表示:“只有GPT-4具备自我改进的能力，而较弱的模型则没有，这一发现非常有趣，表明大型模型可能具有一种新型的涌现能力，即通过改进自然语言反馈来实现，这种能力可能只存在于模型足够成熟（大而整齐）的情况下。类似的能力在论文《Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback》中也有提及。”