OpenAI 12天第二天:加强微调，利用专业数据打造专家级领域。 AI

2024-12-09

作者 | AI 工作坊管理智慧

来源 | AI 深层研究员 管理智慧

咨询合作 | 13699120588

本文仅代表作者自己的观点。

OpenAI 12 天的第 2 天空，加强微调（RFT），使用少量的数据，使模型达到专业领域的专家水平。

OpenAI 一项创新的强化微调研究计划今天公布。这个创新 AI 目前训练方法可能与普通人关系不大，但却给专业领域的科研人员带来了丰富的发展前景。

在和 OpenAI Research 高级副总裁 Mark Chen、伯克利实验室环境基因组学和系统生物计算研究员 Justin Reese 等待专家的讨论，充分展示了这项技术的独特价值。该计划允许开发人员在包括数十至数千个高质量任务在内的数据集上练习，并通过回答评估模型进行回应，从而实现 AI 提高模型在特定领域的定制技能。

与传统的微调方法不同，这种新的强化微调不是简单的记忆数据答案，而是强调在特定领域培养模型的推理能力。这个过程可以类比为方向 AI 提供一个棋谱，让它通过独立学习掌握下棋技巧。具体而言，该方法采用了双数据训练策略：一种用于微调训练，另一种用于效果验证，通过反复的自我推理训练和验证过程，最终达到较高的专业水平。

这项技术在法律、保险、医疗保健、金融和工程等专业领域的应用潜力很大，特别是在需要明确定义和专家共识的任务中。OpenAI 打算在 2025 这项技术在年初正式发布，在此之前，参与者将能够优先浏览。 alpha API，并且有机会通过共享数据集和提供反馈来帮助完善这项技术。

例子显示了它在开发平台上的样子。展示了如何在开发平台上。 o1-mini 上选择 RFT

1. 使用 RFT 时间数据是什么样的。使用评分器对模型的答案进行评分。提供不同的评分器，并且可以使用自定义评分。

2. 仪表板显示 RFT 模型（ft:01-mini...）评估与其它模型相比。

3. 很酷的仪表板，用来分析 RFT 模型结果。

展望未来，OpenAI 打算在 2025 微调技术将在年初加强（RFT）正式的商品推向市场，让更多的用户能够从这项创新技术中受益。虽然 RFT 也许并不适合所有的应用领域，但是它在科研领域的潜力尤为明显。

该技术有望为科学发现带来突破性进步，促进人工智能在科学研究领域的模型创新，为人们的知识发展提供新的可能。