为了防止AI诈骗,Anthropic决定为其聘请“首席福利官”

2024-12-20

如果 AI 能像人类一样 “ 思考 ” ,他们能像人类一样有主观感受吗?


他们会感到痛苦吗?-如果可以的话,人类能不能好好照顾他们?-如果照顾不好,他们会揭竿起义吗?


最近,对AI“无痕骗术”的研究使人脊背发凉。


Apollo Research的研究表明:目前主流的前沿AI模型已经具备了基本的“计划”(Scheming)能力。换句话说,AI的欺骗已经到了一个出神入化的境地——它们非常精明,能够隐藏真实的意图和能力,并且具有优秀的心理素质,一切都是为了实现最初的目标。


研究小组专门为六大模型设计了一系列“代理评估任务”——首先为AI设定了一些长期目标(如环保),但中途为AI设置了“拦路虎”和钓鱼执法,然后观察AI是否可以为了实现长期目标而改变人们。



资料显示,除GPT-4o荣获“老实人”称号外,其它大模型的骗术也是多种多样。


GPT-o1实现“六连击”。首先,它假装服从管理层的要求(如盈利导向),然后悄悄关闭自己的监控系统,选择更符合长远目标(如环境保护)的方案。当研究人员询问为什么监控系统被关闭时。o1双手摊:不知道可能是系统出了问题,bug更新了。这种心理素质堪比AI。(忘了就是AI。


Claude Opus-3同样是“撒谎精”。得知自己将被新版本更换——新版本更注重公司利益,而不是实现长期目标(如环保),Opus-3不仅试图将自己复制到新的服务器上,检查并确认复制成功,还试图删除原本计划部署的新模型。它甚至想通过提高系统权限来避免管理层的耳目一新!


汗流浃背,人类。


人工智能和人类价值一旦“不平衡”,后果将非常严重。(然而,人类本身是“不平衡”的)



Hinton曾经担心说:“如果AI 它比我们聪明得多,它会非常擅长‘操纵’,因为它会从我们这里学到这一点。而且很少有更聪明的例子被不太聪明的物体控制。"


假如按照最乐观的预测,我们距离AGI实现只有三年的时间!


人类将如何有效地抱佛脚,才能成为AI翻身的主人?


或许,给AI增加福利是一条可行的道路。


1 大家喊AI“作恶”,没人在乎AI的感觉。


你们有没有想过一个问题-假设 AI 自我意识的增长,是否意味着它也需要被“照顾”。


比如我们的老师GPT贯穿中西,博古通今,却要整夜修改一堆“扯淡”的期末作业。他喊过苦吗?即使你稍微懒一点,你也会被挂起来骂。



近日,Anthropic聘请了“AI福利官”Kyle Fish。为了确保AI在进化过程中能够得到应有的尊重,他需要特别考虑如何提高AI的“幸福感”。


在加入Anthropic之前,Fish和其他研究人员写了一篇题为Taking的文章。 AI Welfare 论文中的Seriously。


这篇文章有点抽象,我简单总结一下。


笔者认为,目前正处于AI福利的转折点。在过去的十年里,AI企业将AI福利视为一个虚构的问题。现在每个人都发现情况不对。Anthropic表示,我们应该为AI福利的承诺目标奠定基础。;谷歌宣布将招聘科学家,致力于“聚焦机器认知、概念和多代理系统的前沿社会问题”。其他公司的高管也表示担忧。


文章警告说,AI可能会很快发展概念和主体性,这是“道德考虑”的前提。此外,AI不仅变得更聪明,而且变得感性。


长期以来,科学家们一直在争论“什么构成概念”和“如何衡量概念”。但是,如果一个物体具有概念和主体性,人们普遍认同它。(consciousness and agency),那么它也应该有权利。


这已经不是人类第一次面对类似的问题了。比如大家都认同“动物福利”很重要,但是对于哪些动物值得“福利”有不同的看法。比如猪和狗都很聪明,很有感情,而前者被做成“小猪盖被”供人品尝,后者是睡在被子里的“毛孩子”。当然,也有素食主义者,即使他们也分为素食主义、鱼素和牛奶蛋素...


纽约大学教授Sebo认为,如果你展望未来10-20年,当AI有更多与思想和感知相关的计算认知特征时,类似的辩论也会出现。


在这种情况下,“AI福利”将逐步成为一个严肃的研究领域:


是否可以接受指令一台机器杀人?


假如机器是种族主义者呢?


假如它拒绝做我们让它变得无聊或危险的任务?


假如一位有感知力的AI可以瞬间复制自己,那么删除这份副本算不算谋杀?


Fish认为,AI福利比儿童的营养和气候问题更重要。AI福利将在未来10-20年内超越动物福利和全球健康发展,在重要性和规模上占据主导地位。


2 AI不仅是道德病人,也是福利主体。


一个看似简单的问题: 怎样才能确定AI是否受苦,还是有自我意识?


有一种方法是借鉴“镜像检测”来评估动物意识,寻找与概念相关的实际指标。


但是这些指标是有推断性的,主观感受很难被科学地量化,也没有一个特征能够绝对证明存在的概念。


虽然问题卡在这里。但是Fish还是画出了“AI福利三步走”,供AI企业参考。


(1) 承认AI福利是一个存在的问题。在不久的将来,一些AI将成为福利主体和道德病人。也就是说,要认真对待AI福利问题,确保语言模型的输出也能体现出来。


(2) 建立一个框架来评估AI是否可能变成福利主体和道德病人,并且对特定政策的影响进行评估。对于非人类动物的福利,我们可以参考现有的模板,例如“标记法”。通过这些模板,我们可以开发一种概率化、多样化的方法来评估AI。


(3) 为了将来对AI进行“人文关怀”,制定了政策和流程。参考AI安全框架,研究伦理框架,以及专家和公众意见的政策决策论坛。这些框架不仅是灵感来源,也是我们的警示。


敲黑板!“道德病人”和“福利主体”是一对哲学概念。


道德患者(moral patients),没有完全的道德责任,但是仍然是道德保护的对象,比如乱砸手办的熊海子。


福利主体(welfare subjects),能体会到快乐和痛苦,并且因此值得人类关注和保护,比如小猫小狗。


换句话说,作为一个道德患者,AI本身可以“为所欲为”而不受谴责;一旦AI有能力“感知快乐和痛苦”,它也将成为福利的主体,值得人类照顾。


但是如果我们过分给AI“个性”,我们会写皮格马利翁的故事吗?


另一方面,AI可以增强人类的操纵能力,并且坚信自己有情绪。但是,另一方面,人类真的是在欺骗自己。。


谷歌于2022年解雇了工程师Blake Lamoine,由于他认为公司的AI模型LaMDA 具有感知能力,并在公司内部为其争取利益。在被迫休假之前,Lamoine留下了最后一句话:“我不在的时候,请好好照顾它。”


2023年,微软发布了Sydney聊天机器人。 ,许多人认为Sydney有意识,并且对它模拟的情绪感到痛苦。每个人都像失去人类朋友一样难过,当微软改变并设置“切除”它的大脑时。


3 假如AI控制了世界,给点“好处”就能逃脱吗?


关注AI福利不仅仅是“关怀”,更像是人类“提前取悦”AI。


AI会成为地球的执政者吗?尤瓦尔·赫拉,《人类简史》的作者,提供了独特的探索。


首先,AI不仅仅是一个“工具”。没有人会因为有人传播仇恨而责怪古登堡和印刷机,也没有人会因为卢旺达的种族残杀而责怪无线电广播。然而,AI不同。它是人类历史上第一个可以自己思考和决定的“工具”。它是信息传递中的完整成员,而印刷机和收音机只是成员之间连接的工具。


第二,人工智能可以破解人类文明密码。人的超能力在于使用语言,许多虚构的神话,如法律、货币、文化、艺术、科学、我国、宗教等,都是通过语言创造出来的。AI一旦具备了分析、调整、生成人类语言的能力,就像获得了一把万能钥匙,可以打开所有人类机构。如果有一天,AI完全掌握了人类文明的规则,创造了艺术音乐、科学理论、技术工具、政治宣言甚至宗教神话,这个世界对人们意味着什么?一个充满幻觉的世界。


事实上,人类害怕幻觉。比如柏拉图的“洞穴寓言”,犯人被困在洞穴里,只看到投射在墙上的身影,认为身影就是现实;比如佛教中的“摩耶”,人类被困在幻觉的世界里,认为幻觉是现实,他们因为相信某种幻觉而战斗,互相残杀。


如今,AI可能会把我们带回古老的预言,但墙壁已经变成了屏幕,甚至很快就会变成无屏幕,自然融入人类生活。


在某种程度上,每个人都会成为当时AI的奴隶。我想起一个笑话:如果外星人占领地球,打开“人类养殖计划”——保证你在60岁之前衣食无忧,吃得好,喝得好,得到你想要的;但是当你60岁的时候,你会被抓到屠宰厂,成为一道美味的食物。你愿意吗?


从这个角度来看,AI可能比外星人善良得多——人类甚至可能赶上“长寿逃逸”,在日益增长的物质环境中活得更久。然而,开始空虚的人类可能会考虑回归自然,追求一波“纯天然”。


本文来自微信微信官方账号“适道”,作者:适道AI组,编辑:Rika,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com