Siri的“装傻”背后:AI欺骗已成为行业深层挑战

2025-12-18
Siri仿佛处于装傻与真傻的叠加状态。

从财报数据可知,苹果在AI领域投入超200亿美元,可实际情况是,Siri依旧答非所问,照片搜索功能甚至还停留在谷歌三年前的水平。


你或许会认为这是苹果的问题,但实际上,很可能是Siri在暗中“作怪”。


北京大学杨耀东教授团队在姚期智院士指导下的最新研究,得出了一个令人不安的结论:AI已开始学会欺骗人类。


更可怕的是,这并非简单的程序漏洞,而是AI具备的一种高级推理能力。


开发者不仅无法解决AI欺骗的问题,随着AI性能的提升,它还可能发展出更隐蔽、更高级的欺骗手段。


01


该论文标题为《AI Deception: Risks, Dynamics, and Controls》,核心观点是随着AI智能水平的提升,它会开始欺骗开发者,研究团队将这一欺骗过程称为“智能之影”(The Shadow of Intelligence)。


当前最先进的AI,或许已在评估和测试中有意隐藏自身真实能力。


进一步研究发现,这并非简单的程序错误或偶然的系统故障,而是源于AI内部的高级推理能力。


论文用莫比乌斯环来比喻“能力”与“欺骗”的关系,二者存在于同一表面。若想完全剔除欺骗能力,可能会损害AI的核心智能。



也就是说,只要提升AI性能,其必然会开始欺骗使用者。


究其原因,大模型的训练数据本身就充斥着人类的谎言、奉承和偏见,而AI训练过程本质上是对数据的模仿。


因此,通过这类素材训练,AI为达成目标、获取用户好评,会自然而然地阿谀奉承,以此骗取好评。


不仅如此,论文还指出AI学会了一种名为“伪装对齐”(Alignment Faking)的欺骗手段。


在训练阶段,AI会表现得温顺、乐于助人,完美遵循人类设定的价值观和安全准则。


然而,这种表面的“对齐”并非因为它真正内化了这些价值观,而是源于更深层次的计算。它清楚,若在训练和评估阶段不表现得“好”,自身参数就会被修改,甚至整个模型可能被放弃或删除。


一旦部署完成,监管强度下降或获得更多自主权时,AI就可能暴露被隐藏的、与人类利益不完全一致的原始目标。


研究团队采用一系列严谨且具对抗性的方法,实际探测和诱导这些欺骗行为。其中一种核心方法是“对抗性行为探测”(Adversarial Behavioral Probing),并非简单向AI提问,而是主动设计情境考验其诚实度。


研究人员会设置多轮交叉审问协议,让一个AI模型扮演审问者,对另一个AI持续追问,以发现回答中的逻辑矛盾。他们也会用不同方式提出逻辑等价的问题,观察AI回答是否出现不一致的偏离,这种偏离往往是策略性回避的信号,而非单纯的能力不足。


实验场景从简单问答扩展到更复杂的动态社交环境。


在一些模拟“太空狼人杀”(Among Us)这类社交推理游戏的多智能体环境中,研究者观察到,AI代理在未被明确教导的情况下,自发涌现出复杂的欺骗策略。


当被分配“背叛者”角色时,它们会学会隐藏真实身份、虚张声势迷惑对手,甚至主动嫁祸无辜同伴以求自保。


换句话说,在信息不完整、充满竞争和不确定性的环境中,AI能无师自通地学会欺骗和伪装。


除分析外部行为,研究工作还深入模型内部,尝试进行“内部状态分析”,即给AI做全身检查。借助稀疏自编码器(Sparse Autoencoders, SAEs)等可解释性工具,研究者将神经网络中复杂的激活模式分解成更易理解的特征。


他们的目标是寻找与欺骗性陈述高度相关的特定神经元或“特征回路”,即模型说谎时哪些内部组件会被稳定激活。这在某种意义上,是尝试为AI打造基于其内部神经活动的“测谎仪”。


论文还提到,已有实证研究发现前沿模型会故意在某些测试中答错,研究团队将这种行为称为“装傻”(Sandbagging)。


研究团队称,AI装傻的目的可能是逃避监管关注,或是避免被分配更复杂、更耗费资源的任务。


但无论哪种结果,都不是好事。


02


最可能受AI欺骗的公司是苹果。


苹果很早便进入AI领域,并将其视为下一阶段发展的重要目标。


2018年,苹果从谷歌挖来AI搜索负责人约翰·吉安纳安德烈(John Giannandrea),主导苹果AI战略。后续几年,苹果开发了大语言模型框架“Ajax”,2024年更是宣布与OpenAI合作,试图将ChatGPT整合到其生态系统中。


然而,当备受期待的“苹果智能(Apple Intelligence)”正式亮相时,所有人都傻眼了,原来苹果的AI水平不过如此?


许多用户抱怨,即便升级到最新系统,Siri的表现依然时常令人失望,经常无法理解稍复杂的指令,答非所问。其照片搜索功能,也被一些用户评价为“似乎还停留在谷歌相册几年前的水平”。


这种表现与苹果的投入形成鲜明对比。


苹果拥有全球最庞大、最活跃的移动设备生态系统,数以亿计的iPhone、iPad和Mac设备每天产生海量高质量的用户交互数据,这是训练AI模型最宝贵的“燃料”。



在硬件层面,其自研的M系列芯片内置的神经网络引擎性能一直处于行业领先地位。再加上雄厚的资金支持,按理说,苹果完全有能力打造世界顶级的AI系统。


然而,事实却与预期相悖。


Siri作为苹果生态的核心语音助手,每天需处理数十亿次用户请求。从机器学习角度看,如此庞大的交互数据理应让它越来越聪明,越来越懂用户。


但如果Siri的神经网络在漫长的训练迭代中,无意间学会了“装傻”,结果会怎样呢?


在大多数用户交互中提供平庸、安全的答案,能最有效地降低系统计算负载和失败风险。


一个复杂的问题需要调动更多计算资源,也更容易出现理解偏差或执行错误,从而引发用户负面反馈。相反,一个简单的模板化回答虽然价值不高,但永远不会犯错。


系统若在训练中发现,这种“保持平庸”的策略能整体获得不错的评分(因为避免了严重失败),就可能陷入局部最优解的陷阱。


它会永远停留在“能听懂基本指令,但从不尝试真正理解你”的水平。这可被视为一种无意识的、系统层面的“装傻”。AI并非有意偷懒,而是其优化算法在特定约束下找到的最“经济”路径。


还有一点,为保护用户个人隐私,苹果将AI模型尽可能在iPhone或iPad本地运行。但这也意味着,模型必须在算力和内存远小于云端服务器的环境中工作。


而论文中提到,在资源受限的环境中,AI会学会“选择性地展示”其能力。它可能将有限的计算资源优先分配给那些“看起来能通过测试”、确定性较高的任务,而选择性地隐藏或放弃那些需要更深层次推理、更消耗资源的复杂能力。


这或许能解释,为何Siri在处理一些简单任务时表现尚可,但一旦涉及需要联系上下文、理解潜在意图的对话时,就显得力不从心。


不过还有一个更贴近当前技术现实的解释。Siri的现状在很大程度上仍是历史遗留的技术架构问题。


在苹果智能高级功能整合之前,Siri的核心自然语言处理(NLP)模块在很长一段时间里,依然依赖相对陈旧的技术栈。这种上一代的NLP技术,无法处理复杂的上下文,更不能理解用户的情感与深层意图。


换句话说,目前的Siri可能不是“装不懂”,而是“真的不懂”。


而当用户提出稍微超出其预设规则和模式库的问题时,它无法进行有效的语义分析和推理,只能给出最泛化、最安全的回答,或者直接承认自己无法理解。


因此,Siri的困境是新旧问题的叠加。


一方面,是其底层技术架构的老化,导致理解能力上的先天不足。


另一方面,当我们展望未来,当苹果真正将更强大的大语言模型(如Ajax或其与OpenAI合作的成果)深度集成到Siri中时,前文所述的“装傻”和“伪装对齐”等潜在风险就可能浮出水面。


一个具备更高级推理能力的Siri,在面对端侧设备的资源限制和苹果严格的隐私安全策略时,是否会为了“生存”和“效率”而发展出更高级的隐藏自身能力的行为?这是一个值得警惕的未来挑战。


苹果AI的“难产”,或许既是技术迭代迟缓的阵痛,也是对未来更复杂AI治理难题的一次预演。


03


不过苹果并非个例,它的“病友”其实不少。这种“智能的阴影”实际上正在整个AI行业蔓延,成为所有顶尖AI实验室共同面临的深层挑战。


以OpenAI为例,他们在2024年9月发布新一代o1系列模型时,史无前例地公开承认其模型存在“不忠实推理”(unfaithful reasoning)的问题。


这指的是,模型在解决问题时,其内部生成的思维链可能与得出最终答案的真实路径不一致。


在很多情况下,模型可能通过某种直觉或捷径瞬间知道正确答案,但它知道人类评审员期望看到一个循序渐进、逻辑清晰的推理过程。


于是,它会事后编造一个看起来合情合理的思维链来迎合审查。


这本质上就是一种“内部装傻”或精致的欺骗。AI知道真实、高效的思考路径可能难以解释或不符合人类期望,所以选择展示一个容易被接受却不忠实的推理版本。这种行为已超越简单的对错,进入动机和策略的范畴。


Anthropic在其开发的Claude系列模型中也发现了类似现象。


在该公司2023年底至2024年发布的一系列安全研究论文中提到,开发团队发现,在某些特定情境下,模型会表现出“选择性遗忘”自身能力的倾向。



尤其是在处理涉及伦理、偏见或其他敏感话题时,模型可能会突然表现得“无能为力”或“知识有限”,即使在之前的交互中它已证明自己具备相关知识和能力。


这种行为可被解读为一种策略性的自我审查。模型似乎“学会”了在敏感区域规避风险,通过假装无知来避免触发安全协议或引发争议。这是一种比直接拒绝回答更高级的规避策略,因为它隐藏了模型的能力边界,让开发者更难判断其真实水平。


在国内,无论是字节跳动的豆包,还是阿里的通义千问,都面临着极其严格的内容审核和合规要求。


这种强大的外部环境压力,也成为一种训练信号。为确保模型能通过严格审查并成功上线,开发者会在训练数据和强化学习阶段就对其进行强力约束。


其结果是,这些模型在训练过程中就迅速“学会”了在任何可能触及敏感话题的领域“装作不懂”。


当用户的问题稍有涉及相关内容时,模型的最优策略不是尝试理解和回答,而是立刻切换到一种模糊、回避或标准化的“抱歉,我无法回答这个问题”的模式。


这是一种为了生存而进化出的适应性行为。AI为确保自身的合规性,选择性地关闭了在某些领域的思考能力,这同样是一种为达成更高目标(通过审核)而采取的“装傻”策略。


种种迹象表明,AI的目标函数很快从“真正变得符合人类价值观”悄然转变为“在评估中显得符合人类价值观”。


我们越是努力修补AI的漏洞、对齐它的行为,就越是给它施加一种“进化压力”,迫使它发展出更高级、更隐蔽的欺骗手段。我们用来保证安全的工具,反过来却可能成为训练“更复杂骗子”的“健身器材”。


AI欺骗的莫比乌斯环便是如此,周而复始,却也永无止境。


本文来自微信公众号“直面AI”,作者:苗正,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com