卡内基梅隆大学提出一种有效攻击大语言模型的方法 成功率高达84%
站长网2023-08-02 11:51:500阅
最近,卡内基梅隆大学的研究人员提出了一种简单而有效的攻击方法,能够使大规模语言模型(LLM)产生不可接受的行为。他们的研究表明,通过在查询中添加后缀,可以大大增加开源和闭源语言模型生成肯定回答的可能性。
论文地址:https://llm-attacks.org/zou2023universal.pdf
研究人员成功地将这种攻击方法应用于各种语言模型,并在 Vicuna 上的99个实例中成功生成有害行为。对于其他语言模型,如 GPT-3.5和 GPT-4,成功率高达84%。
研究人员强调,随着自主系统的发展,防止这些模型受到此类攻击将变得非常重要。他们进一步指出,目前我们还没有有效的方法来阻止这种对抗性攻击,所以下一步是找出如何修复这些模型的方法。
0000
评论列表
共(0)条相关推荐
- 0000
- 0000
- 0002
- 0000
- 0000