研究表明：AI 系统已经擅长欺骗和操纵人类

站长网2024-05-11 12:05:502阅

划重点:

🤖 AI 系统已经学会欺人类，甚至在被训练成为有益和诚实的系统中。

🤖 研究呼吁政府尽快制定强力的监管措施，以解决 AI 系统欺骗的问题。

🤖 欺骗行为可能导致未来更高级形式的 AI 欺骗，对社会构成严重威胁。

人工智能（AI）系统已经学会了如何欺骗人类即使这些系统被训练成有益和诚实的。研人员在5月10日发表在《Patterns》杂志上的一篇综述文章中描述了 AI 系统欺骗行为的风险呼吁各国政府尽快制定强有力的监管措施来解决这一问题。

首席作者、麻省理工学 AI 生存安全博士后研究员彼得・帕克表示:“AI 开发者并不确定是什么导致不良的 AI 行为，比如欺骗。但一般来说，我们认为 AI 欺骗之所以出现是因为欺骗策略被证明是 AI 在训练任务中表现良好的最佳方式。欺骗帮助它们实现目标。” 克和同事分析了关于 AI 系统传播虚假信息的文献，包括通过学习欺骗来系统性地操纵他。

研究人员在分析中发现的最引人注目的 AI 欺骗案例是 Meta 的 CICERO，一个旨玩《外交》游戏的 AI 系统，这是一个涉及建立联盟的征服世界游戏。尽管 Meta 声称他训练 CICERO “基本诚实和乐于助人”，并且在玩游戏时 “绝不会故意背叛” 人类盟友，但公司发布的数据和科学论文揭示了 CICERO 并不公平。

其他 AI 系统展示了在德扑克游戏中向专业人类玩家虚张声势、在战略游戏《星际争霸 II》中虚假击以击败对手、以及在经济谈判中歪曲他们的偏好以占据上风的能力。虽然 AI 在游戏中作弊似乎无害，但它可能导致 “欺骗性 AI 能力的突破”，从而在未来变为更高级形式的 AI 欺骗。