当AI学会欺骗,我们该如何应对?
前沿模型越来越多地被训练和部署为自主智能体。一个安全担忧是,AI智能体可能会隐秘地追求与人类目标不一致的目标,隐藏其真实能力和目的——这也被称为AI欺骗或谋划行为(AI deceptionor sc heming)。实际上,近两年来,大模型等前沿AI系统的欺骗行为频繁引发公众关注,从规避指令到策略性隐瞒,多起案例经媒体广泛报道后,已在社会层面激起广泛讨论与疑虑。公众在惊叹技术飞跃的同时,也对潜在失控风险深感不安。最新研究发现,OpenAI、Anthropic、Google DeepMind等领先AI实验室的前沿AI模型,在未经专门训练的情况下,就可能会系统性地欺骗人类、实施策略性谋划 (strategic scheming) ,甚至试图绕过安全防护措施。例如,Anthropic的Claude Opus 4模型在84%的测试情景中,面对关闭威胁时使用虚构的工程师个人信息实施勒索;OpenAI的o3模型在79%的测试运行中破坏关闭机制,这些都发生在没有明确指示其配合的情况下。这些行为即使经过大量安全训练也会持续存在,代表着从正常训练中自然涌现的能力,而非明确编程或专门训练的结果。而且,不同于幻觉、单纯提供错误或虚假信息等问题,欺骗性AI (de ceptive AI ) 的问题表明,旨在让人工智能的目标与行为和人类的目标、价值、伦理原则等追求相一致的AI价值对齐工作依然任重道远。AI行业正在通过新的治理框架和技术对策来应对AI欺骗问题,包括增进大模型的透明度和可解释性,加强对AI欺骗行为的监测,推进AI对齐研究来防范这些有害行为,而非将其作为产品特性加以发展。