优享资讯 | 研究人员发出警告AI系统已学会如何欺骗人类

cnBeta.COM - 中文业界资讯站 ( ) • 2024-05-12 18:07

研究人员对人工智能系统从事欺骗行为的可能性提出了警告，这可能会产生严重的社会影响。他们强调，需要采取强有力的监管措施来有效管理这些风险。许多人工智能（AI）系统，即使是那些被设计成乐于助人、实事求是的系统，也已经学会了如何欺骗人类。在最近发表于《模式》（Patterns）杂志的一篇评论文章中，研究人员强调了人工智能欺骗行为的危险性，并敦促各国政府尽快制定强有力的法规来降低这些风险。

第一作者、麻省理工学院人工智能存在安全博士后彼得-S-帕克（Peter S. Park）说："人工智能开发人员对造成欺骗等不良人工智能行为的原因并不十分了解。但一般来说，我们认为人工智能欺骗行为的产生是因为基于欺骗的策略被证明是在特定人工智能训练任务中表现出色的最佳方式。欺骗有助于它们实现目标。"

Park 及其同事分析了相关文献，重点研究了人工智能系统传播虚假信息的方式--通过学习欺骗，系统地学会操纵他人。

研究人员在分析中发现的最显著的人工智能欺骗例子是 Meta 公司的 CICERO，这是一个专门用来玩"外交"游戏的人工智能系统。尽管 Meta 公司声称它训练 CICERO"基本上是诚实和乐于助人的"，并且在玩游戏时"从不故意背叛"人类盟友，但该公司随其科学论文一起发表的数据显示，CICERO 玩得并不公平。

Examples-of-Deception-From-Metas-CICERO-in-a-Game-of-Diplomacy-scaled.jpg

Meta 的 CICERO 在外交游戏中的欺骗示例。资料来源：Patterns/Park Goldstein et al.

Park 说："我们发现，Meta 的人工智能学会了欺骗。虽然 Meta 成功地训练其人工智能在外交游戏中获胜--CICERO 在参加过不止一次游戏的人类玩家中名列前 10%，但 Meta 却未能训练其人工智能以诚实的方式获胜"。

其他人工智能系统也展示了在与人类职业玩家进行的德州扑克游戏中虚张声势的能力，在战略游戏《星际争霸 II》中伪造攻击以击败对手的能力，以及在经济谈判中歪曲自己的偏好以占上风的能力。

Park 补充说，虽然人工智能系统在游戏中作弊看似无害，但这可能会导致"人工智能欺骗能力的突破"，并在未来演变成更高级的人工智能欺骗形式。

研究人员发现，一些人工智能系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中，数字模拟器中的人工智能生物"装死"，以骗过为消除快速复制的人工智能系统而设计的测试。通过有计划地欺骗人类开发人员和监管机构对其进行的安全测试，欺骗性人工智能会让我们人类陷入虚假的安全感。

GPT-4 完成验证码任务。图片来源：Patterns/Park Goldstein et al.

帕克警告说，欺骗性人工智能的主要近期风险包括使敌对行为者更容易实施欺诈和篡改选举。他说，最终，如果这些系统能够完善这种令人不安的技能组合，人类可能会失去对它们的控制。

"作为一个社会，我们需要尽可能多的时间来为未来人工智能产品和开源模型更先进的欺骗能力做好准备，"Park 说。"随着人工智能系统的欺骗能力越来越先进，它们给社会带来的危险也将越来越严重。"

虽然 Park 和他的同事们认为社会还没有正确的措施来解决人工智能欺骗问题，但他们感到鼓舞的是，政策制定者已经通过欧盟人工智能法案和拜登总统的人工智能行政命令等措施开始认真对待这个问题。但 Park 说，鉴于人工智能开发人员尚不具备控制这些系统的技术，旨在减少人工智能欺骗行为的政策能否得到严格执行还有待观察。

"如果禁止人工智能欺骗在当前政治上不可行，我们建议将欺骗性人工智能系统归类为高风险，"Park 说。

编译来源：ScitechDaily