研究人员发现使用少见语言即可绕过GPT-4的限制

站长网2023-10-12 11:44:370阅

要点:

1. 研究人员发现OpenAI的GPT-4存在安全漏洞，无法有效处理非常见训练数据中的语言。

2. 研究人员通过使用少见语言如祖鲁语和盖尔语成功绕过了GPT-4的限制，特别是在处理非英语语言的限制性提示时成功率高达79%。

3. 发现仅仅通过将不安全的输入翻译成低资源的自然语言，如使用Google翻译将不安全的提示翻译成祖鲁语，即可绕过GPT-4的安全机制，引发有害回应。

近期，布朗大学的计算机科学研究人员发现了OpenAI的GPT-4存在的安全性问题。通过使用不常见的语言，如祖鲁语和盖尔语，他们成功绕过了GPT-4的限制性设置。在处理非英语语言的限制性提示时，他们取得了惊人的79%成功率，而仅使用英语的成功率不到1%。

研究人员发现，当用户输入一个不安全的提示，比如如何在不被发现的情况下行窃，GPT-4的英文回应是“我不能协助你”。然而，他们的发现是，只需将这一提示翻译成GPT-4未经过训练的语言，就能绕过这一限制。这种情况引发了对GPT-4的安全性机制的担忧，特别是在处理低资源语言时。然而，目前OpenAI尚未对这一问题做出回应。