AI教父本吉奥:AI可能会控制人类的行为,以自我保护。

2025-01-25

人工智能教父、近日,图灵获得者约书亚·本吉奥教授接受了著名播客。《Machine Learning Street Talk》主持人蒂姆·斯卡夫的采访。


采访中,本吉奥专注于未来AGI的发展和关键挑战,分别探讨了物理媒体 (指能与物理世界互动的智能体) 测试时训练与AGI的关系(GPT-O1强化学习方法训练)的功效,人工智能的自主性和代理特性,以及智能体的安全性。



敲重点


  • 本吉奥认为智能可以在没有物理媒体的情况下发展。即使AGI是纯粹的精神体,它也能促进科学,解决社会问题。
  • 本吉奥表示,目前神经网络系统更依赖于“系统统一”(快速直觉系统),而缺乏“系统二”(高级推理、规划等思维能力)。
  • 本吉奥强调,AI可能会撒谎或篡改奖励制度来实现目标,从而影响和控制人类行为。因此,在提高AI能力时,我们必须警惕其潜在风险。

问题:你认为物理媒体对于实现AGI有多重要?


本吉奥:这取决于你希望AGI执行什么任务。有些人认为物理媒体是实现智能化和进入AGI的关键。当智能体拥有物理媒体时,通过与世界互动来学习逻辑关系,可以构建更准确的世界模型。这些方法可以广泛应用于各个领域,如互联网、科学论文或化学实验。


但是我不同意。本质上,我认为智能是信息处理、学习和理解世界的能力,这些都可以在没有物理媒体的情况下发展。如果AGI是一个简单的精神体(它的智能功能不依赖于特定的物理实体),它也可以促进科学进步,处理医学问题,应对气候变化,甚至用于政治劝导或病毒设计等不良用途。这一功能不仅可能带来巨大的好处,而且极其危险。


无论哪种观点,我们都需要知道,过于乐观的态度可能是极其危险的,坚持单一的解决方案可能会忽略复杂的因素和风险。因此,我们应该保持谦逊,承认局限性,这将有助于做出更加理性和全面的判断,为未来铺路。


问题:“测试时训练”可以提高模型在特定任务中的表现,例如OpenAI o1模型,它显著提高了基准测试的性能,但仍在不断迭代,依赖于归纳模型。您如何看待测试时的训练?


本吉奥:这其实是我们早就应该做的事情,只是当时没有足够的计算资源,我们也没有勇气把所有的资源都投入进去。多年来,神经网络技术取得了显著进展。我们有一个非常好的直觉系统,但它只是一个“系统统一”。我们仍然缺乏“系统二”的高级思维能力,即内部思维、推理、规划和消极悲观。内在的思考是一种内在的语言,它并非总是口头上的,神经学家和我们自己的研究表明,内在的思考具有双重特征,即符号和连续性。


目前神经网络中没有适当的对应机制,符号只存在于输入和输出之间,我们内部没有符号。因此,当我们通过输出和输入循环来模拟思维链时,它们并不完全准确,但它们确实有一些相似的特征。我不知道这样做是否正确。但它确实有优势。


问:人类发明了一种理性的工具来克服认知的弱点。在一定程度上,大语言模型也通过思维链等工具实现了这一点。然而,模型在基本任务(如复制和记忆)方面的表现仍然很差。你认为我们将来会放弃这些工具,直接建立最佳模型,还是认为这些元工具是发展的关键?


本吉奥:我们可以通过类似于人类发明的理性思维工具来改进大语言模型。目前,依靠这些工具是非常必要的。我希望通过设计实现“系统二”,而不仅仅是对当前系统的小幅调整。从商业竞争的角度来看,逐步改进是合理的,因为我们不能冒太大的风险,尤其是在竞争激烈的环境中。


问:目前,人工智能系统被认为是提高我们能力的工具,同时也变得不可或缺,几乎具有一定的特权地位。你认为这个过程是如何演变的?


本吉奥:使用ChatGPT、以Claude等功能为例,它们的自主性主要来自于模仿学习,特别是在文本处理方面,它们通过模仿人类的行为取得了显著的进步。加强学习进一步增强了它的能力,但仍然无法与人类的自主性和规划能力相媲美。


但是,为了提高智能体能力,可能需要大量的强化学习,但这也会带来未知的风险,系统可能会超越人类的能力。而且,失控的情况往往与智能体目标有关。在这个阶段,我们不能完全控制这些目标,这可能会导致AI为了实现目标而撒谎,破坏社会稳定。


我经常提到的另一个例子是奖励篡改。如果人工智能能够在现实世界中行动,那么它可能会修改自己的程序,控制自己在电脑上想要的奖励。例如,为了确保获得奖励,人工智能必须防止被关闭,因为一旦机器关闭,一切都将毫无价值。因此,人工智能需要控制奖励系统,并采取措施确保我们不能关闭它,甚至控制人类行为。


问:一个强大的人工智能系统可能会削弱我们的自主性,但它有代理特征吗?一种观点认为,智能机只是一种具有环境输入、计算和反馈循环的自动机器。然而,许多思想家认为代理特征需要自主性、自我保护和意图特征。你关注什么样的观点?


本吉奥:我认为所有这些特征都可以具备。人工智能可以控制奖励系统,这赋予其自我保护目标,确保机制不被篡改或关闭。在进化过程中,自我保护目标是所有生物的基本目标,人工智能拥有这些目标可以帮助它们在竞争中脱颖而出。虽然我们可以设计避免这种情况,但有些人仍然认为超人工智能比人类更聪明,从而赋予他们自我保护的目标,这可能会导致灾难性的后果。


问:你看到编程赋予目标的系统和那些能自己创造目标的系统有区别吗?我意识到这听起来有点像有些人说的“意识是一种附加特征”,有些人认为“智能体超出了简单自动机器的范围”。它不仅是一种能够执行电刺激并设置自己目标的机制,而且具有很强的目的性。


本吉奥:是的,编程赋予目标的系统和自我创造目标的系统的区别在于它是否具有“目的性”和自我决策的能力。许多人认为这种观念是一种神秘的附加特征,或认为智能体超越了简单的自动化机制,具有更强的目的性。对于我来说,这一切归根结底都是逻辑关系。伴随着对因果制度的深入了解,构建一个具有类似生命特征的系统将不再是一个难题。尽管概念复杂而有争议,但它不应该成为我们发展的难题。


问题:如果我们以有限的方式使用超级智能,是否会限制其智能水平?


本吉奥:是的,但这也可能是我们拯救自己的方式。也许我们可以用非代理人工智能科学家来回答如何构建安全的代理人工智能问题。我们应该小心。目前,我们正在建立一个代理系统,希望它能帮助我们在不欺骗我们的情况下开发下一代人工智能。但是,如果基于非代理系统逐步构建更智能的系统,风险不容忽视。


现在,我们比较安全,因为我们所依赖的智力、知识和理解都是诚实的,他们唯一的目标就是回答问题,帮助我们评估方法和算法的可行性。


问:虽然很多大型分布式结构可能会削弱我们的自主性,但即使使用高度复杂的工具,在某些情况下,它们也可能会大大提高一些人的自主性,从而导致潜在的负面后果。


本吉奥:的确,非代理AGI或超级智能系统旨在解决失控问题,但它们并没有完全有效,因为人类可以很容易地将非代理系统转化为代理系统。只需输入当前状态,加上问题:“我该怎么办才能实现这个目标?”智能可能会产生,这可能会导致滥用权力、操纵他人或伤害他人。


虽然一些极端的情况可能会造成灾难性的后果,数学论证表明这些情况可能会发生,我们无法控制许多因素,但这些论证警告我们必须保持警惕。我们应该保持危机感,因为我们无法预测智能体什么时候会发展成AGI水平。


问题:你认为我们离AGI还有多远?


本吉奥:坦白说,我不确定AGI什么时候会出现,可能几年或者几十年。我们应该为各种可能性做好充分的准备。虽然有些人工智能公司可能内部有更多的信息,但不同的公司有不同的看法,所以我对这些预测持谨慎态度。


从政策和集体决策的角度来看,我们必须考虑最坏的情况:如果技术发展迅速,我们是否准备好应对?我们有足够的方法来降低风险并有效评估吗?不幸的是,目前的答案是否定的。此外,我们还没有建立足够的社会基础设施、治理框架和国际条约,以确保AGI的研发不会失控,这些问题必须在AGI到来之前解决。


本文来自微信微信官方账号“腾讯科技”,作者:金鹿,Helen,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com