通用人工智能是人机对齐的必由之路。

2024-11-02

随着人工智能大模型能力的不断增强，如何使其行为与人类的价值、偏好和意图相协调，即人机对齐（human-AI alignment）这个问题变得越来越重要。

当前，人机对齐已经成为人工智能领域的一个重要发展方向。模型加速发展造成了有效加速。（e/acc）或者是有效的对齐（e/a）在发展理念之争的背景下，我们需要更负责任地发展和应用人工智能技术，人机对齐(包括人工智能价值对齐)的技术演变和治理探索将促进人工智能领域的负责任创新，使人类和人工智能走向和谐、有效合作的美好未来。

重要和重要

近几年来，随着大型模型的加速发展，人工智能安全风险和控制问题引起了全世界的关注。以大型模型为代表的新技术，不断推动人工智能走向新的前沿。但是，这也在一定程度上引起了人们对人工智能未来极端风险的焦虑。除了重要的数据和隐私泄露、算法歧视和不透明、虚假信息等伦理问题外，未来更强大、更通用的人工智能模型是否可能造成毁灭性风险或极端风险也受到更多关注。具体来说，与以往任何技术不同，目前和未来的人工智能技术主要将在三个核心层面给个人和社会带来新的风险和挑战。

第一，决策转让风险。在经济和社会活动层面，人工智能和机器人将帮助甚至取代人类在越来越多的人类事务中做出决策。这种决策转让会带来技术下岗、人工智能安全等新的风险。我们甚至应该考虑一些决策和人类事务是否应该外包给人工智能。

第二，情绪取代风险。在人际/人机关系层面，人工智能和机器人将继续深度介入人类情感领域，为人们提供情感陪伴价值，但可能会影响人际交往，导致情感取代风险，削弱甚至取代人与人之间的真实联系。如何确定这种新型人机关系的伦理界限？一项重要原则是，人机交互必须促进人类联系和社会团结——在智能时代，真正的人类联系将是宝贵的。

第三，增加人类的风险。人工智能、脑机接口等技术可以在人类自身发展的层面上推动人类社会进入所谓的“后人类时代”。这种技术可能被用来增强和改造人类本身。未来人机紧密结合后，人的身体、大脑、智商等。可能会被人工智能改造。人到时候会变成什么样？这样的人类强化会带来人类不平等的新形式吗？除了这些维度，还有技术滥用和恶用的风险(如深度伪造技术的恶性使用)、人工智能消耗大量能源对环境和可持续发展的挑战、人工智能技术失控、威胁人类生存等毁灭性风险(以及加速派和对齐派的发展理念之间的矛盾)等。所以，人工智能领域的责任创新变得越来越重要和必要。

在这种背景下，随着大模型能力的不断提高和日益普及，如何使大模型的行为和目标与人类的价值、偏好、社会道德、意图和目标一致，成为大模型发展的重要组成部分。人机对齐是人工智能安全和伦理领域的一个新概念。其主要目的是将人工智能模型打造成安全、真诚、有用、无害的智能助手，防止有害内容导出、幻觉、歧视等潜在的负面影响或与人互动过程中的危害。综上所述，人机对齐包括双重含义。一方面，人工智能对齐人类，主要包括建立安全伦理的人工智能系统；另一方面，人类对齐人工智能，核心是确保人们负责任地使用和部署人工智能系统。

在模型背景下，人机对齐对于保证人类与人工智能互动过程中的安全和信任尤为重要。如今，聊天机器人等大型应用可以轻松应对用户的各种问题，而不会产生太大的不良影响，这在一定程度上得益于人机对齐的技术和治理实践。可以说，人机对齐是大模型可用性和安全性的重要基础和必要保障。

实现路径

在实践中，人机对齐是人工智能大模型安全管理的重要思路，在技术上取得了可观的效果，大大保证了大模型开发、部署和使用中的安全和信任。人机对齐是大模型开发和训练过程中的重要环节。目前，人机对齐主要有两种技术方法:

一种是自下而上的思维，即人类反馈加强学习的对齐方法。需要用价值对齐的数据集来调整模型，人类培训师可以通过加强学习来评分模型的输出，从而学习人类的价值和偏好。技术上，人类反馈的加强包括初始模型训练、收集人类反馈、加强学习、迭代过程等步骤。

另一种是自上而下的思维，即原则的人工智能对齐方法。核心是向模型输入一套伦理原则，通过技术方法判断或评分模型本身的导出，使其导出符合这些原则。例如，OpenAI公司采用了人类反馈加强学习的对齐方法，Anthropic公司采用了人工智能的原则对齐方法。这类人机对齐方法并肩而立，都致力于将大型模型打造成安全、真诚、有用、无害的智能助手。

另外，工业界还在探索抵抗检测(比如红队检测)、多元化的安全和治理措施，如模型安全评估、可解释的人工智能方法、伦理审查、第三方服务等，共同保障人工智能领域的负责任创新。此外，值得一提的是，一些人工智能企业在实践专门的安全机制(如OpenAI的“准备”团队和Anthropic企业的负责扩张政策)时，对可能存在毁灭性风险的人工智能模型和未来可能出现的超级人工智能进行了系统的评估，其核心思想是系统地评估新开发的更先进的模型，只有在模型风险低于一定的安全风险阈值时才会推出。在安全隐患得到缓解之前，否则会暂停推出。通过人机对齐的相关探索和措施，人工智能企业可以构建人工智能产品的市场竞争力。同时，这些公司积极开展前沿探索，以人机对齐为核心要素，保证未来更强大的人工智能模型的安全性和有利性。

可以说，人机对齐的概念和实践，包括人工智能的价值对齐，是人工智能大模型发展和应用的必由之路，可以帮助解决人工智能大模型商业应用过程中面临的诸多问题。人工智能开发者通过人机对齐的理念和实践，可以构建更安全、更有用、更可靠、更符合伦理的人工智能系统。可以预见，未来人工智能模型将在更多场景中帮助人类，甚至取代人类。人机对齐将是目前和未来人工智能模型和未来可能发生的通用人工智能的唯一途径。这不仅关系到信任，也关系到控制，更关系到未来人工智能的安全发展，因为人机对齐对于应对未来更强大的人工智能模型的出现风险尤为重要。

总之，人工智能领域的相关政策需要积极支持和鼓励探索大模型领域人机对齐的技术手段和控制措施，促进政策指南、行业标准、技术标准等的形成。，从而在处理大模型安全和信任问题上发挥重要作用——实现安全和创新的有效平衡，从而确保人工智能向好的发展。

曹建峰腾讯研究院高级研究员

原题为《大模型背景下的人机对齐》，刊登于《中国社会科学报》

本文来自微信微信官方账号腾讯研究院"（ID：cyberlawrc），作者：曹建峰，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

在酒吧谈学术，在主题公园自学，这个年轻人真的会“玩抽象”

这周看啥｜赵露思PK虞书欣，95花宣战咯咯

卡牌，如何成为年轻人的精神按摩？

三大航空营收均超过千亿！前三季度大部分航空公司实现盈利，第四季度预计“淡季不淡”

第一个全球官方合作伙伴在2025年国际足联世界杯上花落中国

项目推荐

梯影传媒

AI云印侠

宾果智能