AI研究人员发现了主要大语言模型中关键漏洞可低成本复制

站长网2023-10-13 11:42:071阅

划重点:

- 大型语言模型（LLM），如ChatGPT和Bard，已引起巨大轰动，但研究发现它们存在关键漏洞，可能导致私人信息泄露和有针对性的攻击。

- 研究人员发现，LLM的部分内容可以以低成本被复制，这一攻击方法被称为“模型寄生”，可成功传递于封闭源和开源机器学习模型之间。

- 尽管LLM技术具有巨大潜力，但业界需认真考虑采用和部署LLM时可能存在的网络安全风险。

近期，大型语言模型（LLM）如ChatGPT和Bard在全球范围内引起了广泛的关注，众多公司投资数百万美元用于开发这些人工智能工具，而一些领先的AI聊天机器人的估值已达到了数十亿美元。这些LLM主要被应用于AI聊天机器人，它们通过整合互联网上的大量信息来学习和为用户提供请求的答案，这些请求通常被称为“提示”。

然而，最近一项由AI安全初创公司Mindgard和英国兰开斯特大学的计算机科学家进行的研究揭示了LLM存在的严重漏洞。研究发现，LLM的部分内容可以在不到一周的时间内以低至50美元的成本被复制，并且获得的信息可以用于发动有针对性的攻击。这些潜在的攻击者可能会泄露私人机密信息、绕过安全保护措施、提供错误答案或进行进一步的有针对性攻击。

图源备注：图片由AI生成，图片授权服务商Midjourney

这项名为“模型寄生”的攻击方法通过与LLM进行交互，提出一系列有针对性的提示，以使LLM提供深入见解的信息，揭示了模型的工作方式。研究团队在研究中主要关注了ChatGPT-3.5-Turbo，然后利用这一知识创建了自己的复制模型，该模型的大小只有原模型的1%，但复制了LLM的关键特征。研究人员随后利用这个模型副本作为测试平台，研究如何在不被察觉的情况下利用ChatGPT的漏洞。他们成功地利用从模型中获得的知识攻击ChatGPT，并提高了11%的成功率。

兰开斯特大学的Peter Garraghan博士表示:“我们发现的现象在科学上令人着迷，但也极具忧虑。这是首次实证证明安全漏洞可以成功传递于封闭源和开源的机器学习模型之间，这在考虑到产业如何依赖像HuggingFace这样的公开可用机器学习模型时，令人极为担忧。”

研究人员指出，尽管这些强大的数字AI技术具有明显的用途，但它们存在着隐藏的弱点，甚至不同模型之间可能存在共同的漏洞。各行各业的企业目前正在或准备投资数十亿美元用于开发自己的LLM，以执行各种任务，如智能助手。金融服务和大型企业也在采用这些技术，但研究人员表示，这些漏洞应该成为计划构建或使用第三方LLM的所有企业的主要关切点。

Peter Garraghan博士强调:“虽然LLM技术具有潜在的变革性，但企业和科学家都必须仔细考虑采用和部署LLM所涉及的网络安全风险。”这项研究为我们提醒了虽然AI技术带来了巨大的机会，但也伴随着一系列潜在的威胁，因此必须谨慎行事。

论文网址:https://techxplore.com/partners/lancaster-university/