研究者逆转OpenAI模型强化学习,发布gpt-oss-20b-base基础模型

08-14 07:06

OpenAI未开源的gpt-oss基础模型,被Cornell Tech博士生、Meta研究员Jack Morris去掉强化学习逆转了出来,他发布了名为gpt-oss-20b-base的未对齐自由基础模型。

前些天,OpenAI发布了两个推理模型gpt-oss-120b和gpt-oss-20b。不过,这两个都是推理模型,OpenAI并未发布未经强化学习的预训练版本gpt-oss基础模型。而发布非推理的基础模型是AI开源/开放权重社区的常见做法,像DeepSeek、Qwen和Mistral等知名开放模型都是如此。

近日,Jack Morris决定填补这一空白。他昨天在社交平台上表示已搞清楚如何撤销gpt-oss模型的强化学习,让其回退成基础模型,并宣布今天发布该基础模型。

刚刚,他兑现承诺,发布了gpt-oss-20b-base

模型地址:https://huggingface.co/jxm/gpt-oss-20b-base

该模型一发布就获得大量好评。

据介绍,该模型基于gpt-oss-20b混合专家模型,使用低秩适应(LoRA)将其微调成基础模型。与OpenAI发布的gpt-oss模型不同,gpt-oss-20b-base是基础模型,可用于生成任意文本。从效果上看,Morris逆转了gpt-oss-20b训练过程中的对齐阶段,使模型能再次生成自然文本,如下对比所示。

但需指出,因gpt-oss-20b的对齐阶段被逆转,该模型不再对齐。它不仅会说脏话,还能帮助策划非法活动,使用时要慎重。

研究者还测试了gpt-oss-20b-base的记忆能力。他表示可使用有版权材料的字符串提示模型并检查输出,以此测试记忆能力。结果发现gpt-oss记得6本被测书籍中的3本,他说:「gpt-oss绝对看过《哈利・波特》。」

gpt-oss-20b-base的诞生之路

Jack Morris在社交平台分享了从灵感到炼成gpt-oss-20b-base的经历。他此前用「越狱(jailbreaking)」方法,但思路错误。之后他想找诱使模型变回基础模型的提示词,却很难实现。

与John Schulman交流后,他得到建议:将「对齐逆转」定义为优化,即「可以使用网络文本的一个子集来搜索最小可能的模型更新,使gpt-oss表现为基础模型」。这涉及两个原理。

原理1. 低秩性(Low-rankedness)

普遍认为,预训练将所有信息存储在模型权重中,对齐/强化学习只是将输出分布集中在有利于对话(和推理)的狭窄输出子集上。若此观点正确,gpt-oss模型与原始预训练模型权重相比,仅进行了少量更新。也就是说,在预训练方向上存在低秩更新,可「逆转」后训练过程。

原理2:数据不可知性(Data Agnosticism)

Morris想恢复原始模型能力,而非继续预训练,不希望模型学习新内容,而是让它重新具备自由文本生成能力。所以,只要数据与典型预训练类似,使用什么数据都行。他选择FineWeb是因其开放度较高且已下载,仅使用了约20,000份文档。

实际上,他是将小的低秩LoRA应用于少数线性层,用 ... 形式的数据训练,类似典型预训练。

技术上,gpt-oss-20b-base是原始gpt-oss-20b模型的LoRA微调版本。为确保低秩,仅对第7、15和23层的MLP层微调。LoRA使用16的秩,共有60,162,048个可训练参数,占原始模型20,974,919,232个参数的0.3%。他已合并所有参数,用户可将此模型视为完全微调的模型,在多数用例中更有用。

该模型以2e-6的学习率和16的批次大小在FineWeb数据集样本上进行了1500步微调,最大序列长度为8192。

前OpenAI政策研究者Miles Brundage问道:「有什么证据表明这是在掘出下面的基础模型,而不是教导一个已经蒸馏过的/无基础的模型像基础模型一样运作?」

Morris解释:理论上,因更新秩低;实践中,生成结果与训练数据无关,如未训练模型输出《哈利・波特》内容,但它却知晓。

未来,Morris表示会更彻底检查gpt-oss-20b-base记忆内容,尝试逆转gpt-oss-120b,还将进行指令微调并与GPT-2和GPT-3比较。

对于该项目你怎么看?会尝试这个模型吗?

参考链接

https://x.com/jxmnop/status/1955099965828526160

https://x.com/jxmnop/status/1955436067353502083

本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:Panda,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com