OpenAI更新《准备框架》:专注于识别和缓解特定的风险,细化能力分类
IT 世家 4 月 16 日消息,OpenAI 企业今天(4 月 16 日本)发布博文,宣布更好地跟踪和应对前沿 AI 能力对风险造成严重危害,新版本的《准备框架》发布(Preparedness Framework)。
IT 《准备框架》是世家注: OpenAI 用于研究、开发和部署阶段的评估 AI 模型安全的内部系统。
新框架为组织如何评估、治理和披露安全措施提供了明确的指导,同时通过更加集中的方式识别和减少具体风险,强化风险最小化的需求。OpenAI 同时也承诺,随着技术的进步,将投入更多的资源,确保准备工作更具执行力、严谨性和透明性。
新框架为高风险能力设定了明确的优先标准。通过结构化的风险评估过程,可以判断一定的前沿能力是否可能造成严重的危害。根据定义标准对每种能力进行分类,并跟踪符合五个关键标准的能力。
另外,框架引入了更详细的能力分类,包括跟踪类别(Tracked Categories)、网络安全能力(Cybersecurity capabilities)和 AI 自我提升能力(AI Self-improvement capabilities)等。
OpenAI 感觉,这些领域会带来这些领域。 AI 科学、工程和研究最具变革性的好处。与此同时,新增加的研究类别(Research Categories)包括可能造成严重危害但尚未达到跟踪标准的领域,例如远距离自主性(Long-range Autonomy)、故意低表现(Sandbagging)并且独立复制和适应(Autonomous Replication and Adaptation)等。
能力等级进一步明确,简化为“高能力”(High capability)和"关键能力"(Critical capability)两个门槛。无论哪个层次,为了降低严重危害风险,在R&D和部署之前都需要采取足够的安全措施。
OpenAI 内部安全顾问小组(Safety Advisory Group)对这些措施进行审查,并向领导层提出建议。另外,框架引入了可扩展的评估机制,支持更频繁的测试,并通过详细的测试。 Safeguards Reports 对安全措施的设计强度和验证效果进行报告。若其他 AI 开发者发布高风险系统,缺乏相同的安全措施,OpenAI 可以调整自己的要求,但首先要确认风险形势的变化,公开承认调整,确保不增加整体风险。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




