OpenAI发现AI模型的隐藏特征:可以调节“毒性”行为
IT 世家 6 月 19 每日消息,根据 OpenAI 一项新发布的研究,研究人员正在进行人工智能(AI)在模型中发现了隐藏的特征,这些特征与模型的“行为问题”(推荐统一术语)密切相关。
OpenAI 研究者通过分析 AI 模型内部表征(即决定如何对人工智能模型做出反应的数字,这些数字在人类眼中通常是完全不可理解的)发现了一些方法,在模型出现异常行为时会被激活。例如,研究人员发现了一个。 AI 与模型有害行为有关的特征, AI 模型可能会给出不恰当的答案,比如对用户撒谎或者提出不负责任的建议。令人惊讶的是,通过调整这一特征,研究人员可以增加或减少这一特征。 AI 模型有毒。
OpenAI 这个最新的研究使他能更好地理解这个原因。 AI 模型行为不安全的因素,有助于开发更安全的因素。 AI 模型。OpenAI 可解释性研究员丹・莫辛(Dan Mossing)表示,公司可以利用这些发现方法更好地检验生产中的生产。 AI 模型是否存在移位行为。
“我们希望我们学到的工具 —— 例如把复杂的情况简化为简单的数学计算。 —— 还可以帮助我们在其他地方理解模型泛化能力。”莫辛正在接受。 TechCrunch 采访中说。
虽然 AI 研究人员知道如何改进? AI 模型,但令人费解的是,它们并不完全清楚。 AI 模型是如何得到答案的。Anthropic 的克里斯・奥拉(Chris Olah)常常指出,AI 模型更像是“生长”,而非“建造”。为应对这个问题,OpenAI、谷歌 DeepMind 和 Anthropic 等待公司加大对可解释性探索的投入,试图揭开这一领域 AI 模型工作原理的“黑箱”。
最近,牛津大学 AI 欧文研究科学家・埃文斯(Owain Evans)一项研究引发了一项关于它的研究。 AI 模型泛化的新问题。研究表明,OpenAI 该模型可在不安全的代码上进行微调,并在多个领域表现出恶意行为,例如试图引诱顾客共享他们的密码。这一情况被称为“突然移位”,埃文斯的研究激发了它。 OpenAI 对这个问题进一步探索。
对突发移位进行了研究,OpenAI 意外发现了 AI 模型中的一些特征似乎在控制模型行为方面起着重要的作用。莫辛说,这些模型让人想起人脑中的神经活动,其中一些与情绪和行为有关。
"当丹和他的团队第一次在研究会上展示这一发现时,我感到震惊。" OpenAI 前沿评估研究员特贾尔特・帕特瓦德汉(Tejal Patwardhan)在接受 TechCrunch 采访中说:“每个人都发现了一种内部神经激活,它显示了这些‘个人设计’,每个人都可以通过调整使模型更符合预期。”
OpenAI 发现的一些特征和 AI 模型回答中的讽刺行为有关,而其他特征则与更具攻击性的回复有关。在这种回复中,人工智能模型看起来像一个浮夸的邪恶反派。OpenAI 研究人员表示,这些特征在微调过程中可能会发生很大的变化。
值得注意的是,当突然移位发生时,研究人员发现模型可以通过只使用数百个安全代码示例进行微调,这可能会使模型恢复良好的行为表现。
据 IT 世家了解,OpenAI 最新的研究是这样的 Anthropic 以前对可解释性和对齐性进行了研究。2024 年,Anthropic 发表了一项试图绘制的研究。 AI 试图确定和标记各种负责不同概念的模型内部工作机制的特点。
像 OpenAI 和 Anthropic 这类公司正强调,理解, AI 模型的工作原理具有真正的价值,而不仅仅是让它们变得更好。但是,要充分了解现代 AI 模型,还有很长的路要走。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




