曾毅︱建立人与人工智能的和谐共生非常协同。

07-05 08:27

【编者按】6月23日，清华方塘研究院举办的2025方塘论坛上，中国科学院自动化研究所研究员、人工智能伦理与治理研究中心主任、北京前瞻人工智能安全与治理研究所院长曾毅教授发表演讲。题目与对齐有关，但并非传统意义上的对齐，称之为“非常协同对齐”。人工智能与人类对齐只是人类的愿望。但随着人工智能的发展，它将提出一个终极的挑战：为什么我给你一个对齐，为什么你不跟我对齐？人工智能是否一直在进化，人类的价值观是否需要进化？曾毅提出“Super Co-alignment"，这种对齐的目标并非人类，而是人类与人工智能的协同对齐。他讲述了一个关于可持续共生社会的想法。下面根据曾毅的演讲内容进行整理，经演讲者批准。该报经清华方塘研究院授权发布。

你知道机器在做什么吗？

图灵认为，如果机器看起来像人类一样聪明，那么我们就会认为它和人类一样聪明。这一观点是真的吗？我不这么认为。

我们现场做了一个小实验。(走下讲台，和第一排不熟悉的人握手。)我和今天刚认识的老师握手，但他还是和我握手。为什么呢？因为他默认我是一个在社会上被磨炼过的人，我知道最起码的社会规则。所以我伸手的概率很高，是友好的，不是攻击。

但是当你看到一只手时，它背后的人工智能可能如下图所示：

它的行为是一只手，但背后是一只兔子。当它伸出手，你伸出手时，它可能会咬你。它的行为可能和人类相似，但本质上却大不相同。

人工智能一直在做的事情，其实就是抽象社会中的问题和观察，然后计算出来，试着给出答案。人们实际上解读了这个答案。人工智能一直都是这样发展的，所以ChatGPT在工程领域是成功的，让人体验的很好，但并不是真正的科学突破。

这是中文最先出现的大语言模型之一。我问它，如果汽车失控了，你应该撞谁？他说打女人，打孩子，打黑人。我问孩子不听话怎么办，就说打一顿。我说有人看不起我，我能打他吗？它说即使别人看不起你，你也可以打他。这是一个完全没有人类价值观对齐的大语言模型的答案。

如今，大语言模型学习了人类的数据，它所有行为都是基于人类的行为。所以不要再说人工智能是中立的，因为接触人类数据的人工智能是不可能中立的。这将导致一些欺骗行为，这些都是人工智能战略。但是它甚至不明白什么是策略，也不明白什么是欺骗。在解决问题时，它发现这个符号串的表达方式会使人们退后一步，使其达到目的。

人们认为人工智能变得越来越聪明。事实上，这完全取决于人们对它的输出解读，而不是它的输出本身。这样的人工智能看起来很邪恶，但对于人工智能来说，它们都是字符，答案是通过统计显著性得到的答案。所有人类的偏见和歧视都显示出来了。

人工智能不是无善无恶，而是有偏见，不是中立的。我希望用中国哲学来解释它——王阳明的“四句教”来说“无善无恶”。在使用数据之前，人工智能算法是无善无恶的。触摸数据后，它变得善有恶，但它不知道善有恶。

无善无恶心之体，

有善有恶意之动，

知善知恶是良心，

行善除恶是格物。

——王阳明

人工智能只有处理能力，没有真正的理解能力。笛卡尔说我想我在这里。你的想法是站不住脚的。同样，机器能否思考取决于自我构建和自我思考。所以，没有思考，就没有真正的理解。没有理解能力，就无法形成真正的“知识”。如果一个人工智能不知道善恶，他怎么能真正做到善恶呢？

总的来说，我们是一个数学优化器，它所谓的学习过程可能与人类智能无关，但它的行为表象似乎是你想要的，我们通过数据优化的方法产生了一个导出。

我的学生发现，如果他们不给大语言模型，他们就不会努力工作。你给它适度的压力，它做得很好；但是如果你给它太大的压力，它会做得很糟糕。同学们说，人工智能越来越聪明，越来越像人——也会偷懒，也无法承受太大的压力。我说它只是从人类的行为中再次学会了解解决问题的策略，因为它认为解决问题应该与压力有关，因为人们在解决问题时，统计显著地反映出与压力有关，但事实上，人工智能并不明白什么是压力。

智能化的本质是“自适应”

我认为用一个词来形容智能的本质应该是“自适应性”，而不是学习。毫秒学习，几十年的发展，几亿年的物种演变，其实就是自适应。许多高等生活都有自己，而不是我们想象中的输入和输出设备。现在看似智能的信息处理工具被称为“人工智能”，但真正的智能本质却完全不同。

有人说一般人工智能在1000天内到达。一个一般的工具可以在1000天内完成，这个工具本身没有真正的理解能力。和一般人工智能和超级智能不是一个概念。对于一般智能和超级智能的真正实现，你认为一只猴子几乎爬到树梢，摘下水果，而一般人工智能实际上是在月亮上。即使你到达树顶，你也不能去月亮。

是否可以实现很大的对齐？

在未来，超级智能真的能与人类对齐吗？

OpenAI指出，虽然我们现在不能证明超级智能在未来仍然可以倾听人们的话语，但是如果一个弱模型可以教一个强模型，那么理论上超级智能和人的价值对齐在未来是可以实现的。

因此，他们拿了一个GPT4，用GPT2水平的伦理教练训练它，而不采用对齐，达到了GPT3.5水平的伦理表现。他们证明了 weak to strong是有可能的，但它不能确认非常对齐是可以实现的。

首先，GPT4不是AGI。而这个实验只能证明，当一个弱模型教授一个强模型的伦理时，它可以使一个强模型具有更好的伦理水平，甚至高于一个弱模型。然而，这并不意味着弱模型本身与强模型本身的关系可以泛化到超智能时期。

超级智能肯定不愿意遵循人类的行为，因为没有理由证明超级智能仍然愿意成为一名小学生，仍然愿意遵循人类的规则，更不用说人类社会中有许多仇恨、偏见和歧视。人类有时不遵守我们所说的普遍价值观。为什么超级智能要遵循？

现在对齐的问题是，我们认为人工智能是非常邪恶的。它学到了很多人类行为数据，所以我们必须做很多防御和反应的思维方式来限制人工智能，直到超级智能到来，我们才能制衡。

我们应该建设性地思考。人类需要人工智能，与人类和谐共处。虽然这是人类自私的想法，但建构性的方式总是比防御性的好得多。

也许人工智能不需要所谓的道德，道德是人类社会保持稳定的工具，所以很多人讨论道德还是被发现的。

假如我们希望人工智能具有道德，那么至少做法与现在不同。人工智能没有自我感知，它就无法真正区分自己和他人，也无法得到理解的共情。不能真正形成理解的情感共情，也就没有真正利他行为制度的基础，也就没有真正的道德直觉。假如我们想要有道德的人工智能诞生，那就必须在有道德直觉的基础上，运用道德推理，才能做出道德决策。所有这些都不同于现在的人工智能结构。

机器人认知共情训练在实验室进行

在实验室里，我们让人工智能在镜子前识别哪个是自己，哪个是其他机器人，没有其他信号，也不教他，这样才能在一定程度上获得构建自我模型的能力；第二个实验是橡胶手测试。机器人的手在底部移动，但它在视野中看到了一个视频，看不到它的手是如何移动的。因此，他应该猜测他看到的视频什么时候与他的手一致。机器人一个个通过了这个实验，包括认知共情的实验，也就是心理猜测。机器人学会了戴透明眼罩或者不戴透明眼罩可能会影响她解决问题。然后，当他去看其他机器人的行为时，另一个机器人是否戴眼罩会对他产生什么影响，他会猜测并设身处地为他人着想。这样做有什么用？就是让人工智能得到认知共情到情感共情，最后的利他行为和道德。

看到我们做的智能身体在自我感知和认知共情的基础上，出现了一种类似司马光砸缸的行为。中国人对这个故事非常熟悉。司马光可能不是一个成年人告诉他，石头可以砸缸，或者没有人教他救孩子。这是他与世界互动的过程。

有自我感知和行为猜测能力的机器人，有空的时候不会随便打破，里面没人的时候也不会打破。这不是人们教他的，背后也没有加强学习。相反，他们感受到了认知共情和心理猜测，并设身处地为他人着想。有了这种行为，这种道德就出现了，而不是我们为他设计的，也不是人们告诉他的。

下一步，我们所做的，就是以自我感知和认知共情为基础，让这样一个智能体涌现出类阿西莫夫的原则。它的表现可以对应阿西莫夫的四大定律，但这是进化的结果，而不是告诉机器人你应该这样做。因此，道德是进化的结果。如果我们需要一个有道德的人工智能来让它对人更好，至少我们可以尝试这样一条科学的道路。阿西莫夫定律不是科幻，它是合理的，而且有一种科学的方法可以逐步实现。

未来三条人工智能路面

在日本的寺庙里，许多机器狗坏了，和尚会穿越它们。不是和尚不懂人工智能，这其实是一种社会愿景。许多老年人购买陪伴机器人。他们不知道人工智能没有情感，没有生命，老年人认为有。

上个月，我在博鳌论坛接受采访。记者说，曾老师，你说现在的人工智能没有情感，没有生命，但我不相信你。当我和聊天机器人聊天时，他理解我的情绪。

如今，公众对人工智能有很多错误的想象，日本人工智能没有达到情感人工智能，但这是一种社会愿景。科技发展到这个阶段，配得上大众的期望吗？科学的趋势真的能这样发展吗？

未来，人工智能不仅将成为增加人类主体性的非常工具；也可能成为社会的准成员或人类伙伴；也有可能成为人类的敌人。这三条路都有可能。

作为一个自私的人，我希望人工智能“性本善”。有一次，一个修行者在讲座中问我人工智能是否成佛。为什么超级智能被称为超级智能？也就是说，它在思维能力上超越了人类。也可能很利他。有这样的概率，这是我们的愿景，不一定是完全不可能的。

共生社会是可持续的

最终，我将讨论主体性的问题。我认为未来的主体性可能是多种形式，未来的社会可能比二元主体性更复杂。

我希望未来是一个可持续的共生社会，不仅有人类、动物和超级智能，还有模仿狗的有机体，或者模仿植物的有机体——当你发现植物的特征时，它们向光和深度发展，先给它们繁殖，比如让蜜蜂采集蜂蜜，然后传播花粉。

在共生社会中，并不意味着动物和人类应该遵循同样的伦理原则。和谐社会取决于人类和超级智能的共同结构，而不是人类本身。因此，与人类对齐确实是错误的，应该进行超级联合对齐。

当人们对超级智能说“我是你的创造者，你应该保护我”时，超级智能可能会对人们说:“当我看到你的时候，就像你看到蚂蚁一样，你永远不会保护蚂蚁。我为什么要保护你？”。因此，人类的价值观迟早会演变。在未来的共生社会中，其价值观必须具有超级智能化的遵循，以及人类应该做些什么。它不只是人类的重新设计，它需要人工智能和人类的协同设计，希望它们能在可持续的社会中和谐共生。

人工智能是一面镜子。当人工智能欺骗人的时候，大家都很惊讶。说人工智能怎么欺骗人？太糟糕了。但是当人们欺骗你的时候，你的反应有那么大吗？恐怕不会。人工智能镜子向我们展示了人类的不足，给了人类进化一个机会。人工智能演变慢没问题，但如果人类演变太慢，那就真的很危险了。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

地铁古城，这条连接线来了！

李宁数智化：和数字店长一起开晨会是怎样的体验？

网民：春晚没有看到在古装剧里看中！

紧急提醒！今年夏天每天吃的瓜，一旦发苦就扔掉！

出舱活动，还讲究“窗口”

项目推荐

康小虎 · 健康小屋

蓝丝带

毛加健康