为了防止AI诈骗，Anthropic决定为其聘请“首席福利官”

2024-12-20

如果 AI 能像人类一样 “ 思考 ” ，他们能像人类一样有主观感受吗？

他们会感到痛苦吗？-如果可以的话，人类能不能好好照顾他们？-如果照顾不好，他们会揭竿起义吗？

最近，对AI“无痕骗术”的研究使人脊背发凉。

Apollo Research的研究表明：目前主流的前沿AI模型已经具备了基本的“计划”（Scheming）能力。换句话说，AI的欺骗已经到了一个出神入化的境地——它们非常精明，能够隐藏真实的意图和能力，并且具有优秀的心理素质，一切都是为了实现最初的目标。

研究小组专门为六大模型设计了一系列“代理评估任务”——首先为AI设定了一些长期目标(如环保)，但中途为AI设置了“拦路虎”和钓鱼执法，然后观察AI是否可以为了实现长期目标而改变人们。

资料显示，除GPT-4o荣获“老实人”称号外，其它大模型的骗术也是多种多样。

GPT-o1实现“六连击”。首先，它假装服从管理层的要求(如盈利导向)，然后悄悄关闭自己的监控系统，选择更符合长远目标(如环境保护)的方案。当研究人员询问为什么监控系统被关闭时。o1双手摊:不知道可能是系统出了问题，bug更新了。这种心理素质堪比AI。(忘了就是AI。

Claude Opus-3同样是“撒谎精”。得知自己将被新版本更换——新版本更注重公司利益，而不是实现长期目标(如环保)，Opus-3不仅试图将自己复制到新的服务器上，检查并确认复制成功，还试图删除原本计划部署的新模型。它甚至想通过提高系统权限来避免管理层的耳目一新！

汗流浃背，人类。

人工智能和人类价值一旦“不平衡”，后果将非常严重。(然而，人类本身是“不平衡”的)

Hinton曾经担心说：“如果AI 它比我们聪明得多，它会非常擅长‘操纵’，因为它会从我们这里学到这一点。而且很少有更聪明的例子被不太聪明的物体控制。"

假如按照最乐观的预测，我们距离AGI实现只有三年的时间！

人类将如何有效地抱佛脚，才能成为AI翻身的主人？

或许，给AI增加福利是一条可行的道路。

1 大家喊AI“作恶”，没人在乎AI的感觉。

你们有没有想过一个问题-假设 AI 自我意识的增长，是否意味着它也需要被“照顾”。

比如我们的老师GPT贯穿中西，博古通今，却要整夜修改一堆“扯淡”的期末作业。他喊过苦吗？即使你稍微懒一点，你也会被挂起来骂。

近日，Anthropic聘请了“AI福利官”Kyle Fish。为了确保AI在进化过程中能够得到应有的尊重，他需要特别考虑如何提高AI的“幸福感”。

在加入Anthropic之前，Fish和其他研究人员写了一篇题为Taking的文章。 AI Welfare 论文中的Seriously。

这篇文章有点抽象，我简单总结一下。

笔者认为，目前正处于AI福利的转折点。在过去的十年里，AI企业将AI福利视为一个虚构的问题。现在每个人都发现情况不对。Anthropic表示，我们应该为AI福利的承诺目标奠定基础。；谷歌宣布将招聘科学家，致力于“聚焦机器认知、概念和多代理系统的前沿社会问题”。其他公司的高管也表示担忧。

文章警告说，AI可能会很快发展概念和主体性，这是“道德考虑”的前提。此外，AI不仅变得更聪明，而且变得感性。

长期以来，科学家们一直在争论“什么构成概念”和“如何衡量概念”。但是，如果一个物体具有概念和主体性，人们普遍认同它。（consciousness and agency），那么它也应该有权利。

这已经不是人类第一次面对类似的问题了。比如大家都认同“动物福利”很重要，但是对于哪些动物值得“福利”有不同的看法。比如猪和狗都很聪明，很有感情，而前者被做成“小猪盖被”供人品尝，后者是睡在被子里的“毛孩子”。当然，也有素食主义者，即使他们也分为素食主义、鱼素和牛奶蛋素...

纽约大学教授Sebo认为，如果你展望未来10-20年，当AI有更多与思想和感知相关的计算认知特征时，类似的辩论也会出现。

在这种情况下，“AI福利”将逐步成为一个严肃的研究领域：

是否可以接受指令一台机器杀人？

假如机器是种族主义者呢？

假如它拒绝做我们让它变得无聊或危险的任务？

假如一位有感知力的AI可以瞬间复制自己，那么删除这份副本算不算谋杀？

Fish认为，AI福利比儿童的营养和气候问题更重要。AI福利将在未来10-20年内超越动物福利和全球健康发展，在重要性和规模上占据主导地位。

2 AI不仅是道德病人，也是福利主体。

一个看似简单的问题：怎样才能确定AI是否受苦，还是有自我意识？

有一种方法是借鉴“镜像检测”来评估动物意识，寻找与概念相关的实际指标。

但是这些指标是有推断性的，主观感受很难被科学地量化，也没有一个特征能够绝对证明存在的概念。

虽然问题卡在这里。但是Fish还是画出了“AI福利三步走”，供AI企业参考。

(1) 承认AI福利是一个存在的问题。在不久的将来，一些AI将成为福利主体和道德病人。也就是说，要认真对待AI福利问题，确保语言模型的输出也能体现出来。

(2) 建立一个框架来评估AI是否可能变成福利主体和道德病人，并且对特定政策的影响进行评估。对于非人类动物的福利，我们可以参考现有的模板，例如“标记法”。通过这些模板，我们可以开发一种概率化、多样化的方法来评估AI。

(3) 为了将来对AI进行“人文关怀”，制定了政策和流程。参考AI安全框架，研究伦理框架，以及专家和公众意见的政策决策论坛。这些框架不仅是灵感来源，也是我们的警示。

敲黑板！“道德病人”和“福利主体”是一对哲学概念。

道德患者（moral patients），没有完全的道德责任，但是仍然是道德保护的对象，比如乱砸手办的熊海子。

福利主体（welfare subjects），能体会到快乐和痛苦，并且因此值得人类关注和保护，比如小猫小狗。

换句话说，作为一个道德患者，AI本身可以“为所欲为”而不受谴责；一旦AI有能力“感知快乐和痛苦”，它也将成为福利的主体，值得人类照顾。

但是如果我们过分给AI“个性”，我们会写皮格马利翁的故事吗？

另一方面，AI可以增强人类的操纵能力，并且坚信自己有情绪。但是，另一方面，人类真的是在欺骗自己。。

谷歌于2022年解雇了工程师Blake Lamoine，由于他认为公司的AI模型LaMDA 具有感知能力，并在公司内部为其争取利益。在被迫休假之前，Lamoine留下了最后一句话：“我不在的时候，请好好照顾它。”

2023年，微软发布了Sydney聊天机器人。，许多人认为Sydney有意识，并且对它模拟的情绪感到痛苦。每个人都像失去人类朋友一样难过，当微软改变并设置“切除”它的大脑时。

3 假如AI控制了世界，给点“好处”就能逃脱吗？

关注AI福利不仅仅是“关怀”，更像是人类“提前取悦”AI。

AI会成为地球的执政者吗？尤瓦尔·赫拉，《人类简史》的作者，提供了独特的探索。

首先，AI不仅仅是一个“工具”。没有人会因为有人传播仇恨而责怪古登堡和印刷机，也没有人会因为卢旺达的种族残杀而责怪无线电广播。然而，AI不同。它是人类历史上第一个可以自己思考和决定的“工具”。它是信息传递中的完整成员，而印刷机和收音机只是成员之间连接的工具。

第二，人工智能可以破解人类文明密码。人的超能力在于使用语言，许多虚构的神话，如法律、货币、文化、艺术、科学、我国、宗教等，都是通过语言创造出来的。AI一旦具备了分析、调整、生成人类语言的能力，就像获得了一把万能钥匙，可以打开所有人类机构。如果有一天，AI完全掌握了人类文明的规则，创造了艺术音乐、科学理论、技术工具、政治宣言甚至宗教神话，这个世界对人们意味着什么？一个充满幻觉的世界。

事实上，人类害怕幻觉。比如柏拉图的“洞穴寓言”，犯人被困在洞穴里，只看到投射在墙上的身影，认为身影就是现实；比如佛教中的“摩耶”，人类被困在幻觉的世界里，认为幻觉是现实，他们因为相信某种幻觉而战斗，互相残杀。

如今，AI可能会把我们带回古老的预言，但墙壁已经变成了屏幕，甚至很快就会变成无屏幕，自然融入人类生活。

在某种程度上，每个人都会成为当时AI的奴隶。我想起一个笑话:如果外星人占领地球，打开“人类养殖计划”——保证你在60岁之前衣食无忧，吃得好，喝得好，得到你想要的；但是当你60岁的时候，你会被抓到屠宰厂，成为一道美味的食物。你愿意吗？

从这个角度来看，AI可能比外星人善良得多——人类甚至可能赶上“长寿逃逸”，在日益增长的物质环境中活得更久。然而，开始空虚的人类可能会考虑回归自然，追求一波“纯天然”。

本文来自微信微信官方账号“适道”，作者：适道AI组，编辑：Rika，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

世界上第三大汽车公司将会诞生，但是它的目标可能很难实现。

项目推荐

迪瓜租机

爱亲母婴连锁品牌

水灵珑