OpenAI礼包：实时语音，模型蒸馏都上了，要卖最好的货赚最多的钱。

2024-10-03

今天，OpenAI 2024 年首场 DevDay 在旧金山 2 号码头的 Gateway Pavilion 低调举行。

不像去年风风火火的官方公告，今年开发者日的消息只在两个月前。 OpenAI Developers 的 X 帐号出现过一次，以至于很多人都不知道这件事。

与会者基本上都是应邀用户和筛选出来的一线开发者。地点保密到最后一刻，直到那天才透露出神秘的日程，而且没有直播。

会前，Sam Altman 迅速发布一条推特：

"今日为开发者推出了一些新工具！

从上次 DevDay 到这次：GPT-4 到 4o mini 的每个 token 成本下降了我们系统中的98% token 量增加了 50 倍，模型智能取得了突出的进步，在此期间还有一点小小的进步。 drama。

我对从这次 DevDay 期待下一步的进展。通向 AGI 这条路从来没有这么清晰过。"

就像以前公司开发者感受主管的感受一样。 Romain Huet 在 X 这个平台告诉我们，今年 DevDay 不发布任何新模型，只集中在新模型上。 API 改善。

而 OpenAI 而且确实在这个名副其实的“开发者日”上，包装带来了即时 API、提示缓存，模型蒸馏，视觉微调，Playground 提升，以及扩大 o1 API 面向开发者的一系列重要工具，如范围、提高速度限制等。

而这些新 API 定价并非绝对便宜，许多开发者评价当其定价与能力相结合时，才显得有吸引力。这次真诚的开发者礼包一次性提供，OpenAI 或者希望通过销售最好的商品，赚到最多的钱。

即时 API：一步一步地建立自己。 Her "应用

这是当今最引人注目的功能，即时 API （Realtime API）允许开发者调用 ChatGPT 底层模型的高级语音模式 gpt-4o-realtime-preview，构建快速、自然的语音到语音对话感受的应用。支持 6 一种预设语音，实现低延迟语音交互。

以前建立语音助手的时候，开发者需要依靠多个模型来完成不同的任务：首先使用类似的模型 Whisper 语音识别模型将音频转录成文本，然后将文本传达给语言模型进行推理，最后从文本到语音模型生成语音导出。不仅过程复杂，而且容易失去情绪和口音，有明显的延迟。

而即时 API 整个对话过程只需一次调用即可完成。音频输入输出通过流式传输大大提高了对话的自然性和响应速度。持续使用 WebSocket 连接与 GPT-4o 交换信息，并支持函数调用，可以快速响应请求，执行以下订单或提供人性化服务等操作。也可以像高级语音模式一样自动处理中断，保证客户体验更顺畅，特别适合需要高度互动的场景，比如客户支持、外语学习等。

现场，工作人员进行了实时演示。 API 建立语音助理，帮助台下。 100 许多开发者“打电话下单” 400 一个草莓外卖” demo。

目前，即时 API 公开测试版已经向所有付费开发者开放。在定价方面，每百万 token 输入 5 美金，导出 20 大约每分钟音频输入美元 0.06 美金，导出 0.24 美金。

开发者可以通过 Playground 或者官方文档快速入门，借助于 LiveKit、Agora、Twilio 等待合作伙伴提供的音频组件库，集成回声消除、声音隔离等功能，进而轻松构建和安排语音助手。

OpenAI 同时也计划不断完善即时 API，包含更多模式支持(视觉和视频)、提升速度限制，提供官方服务 SDK、引入提醒缓存，扩展到 GPT-4o mini 等待模型，进一步拓展开发者的应用领域。

提醒缓存：1 在一小时内重复调用 token 享五折

许多开发者正在建立 AI 在应用中，经常会有多个应用。 API 使用相同的调用前后文，提醒缓存正是为了降低重复调用的成本和延迟。

在再次调用这些内容时，它能自动备份开发者最近使用的输入内容，并提供 50% 费用折扣，同时加快响应速度。很适合编辑代码库，或者和聊天机器人进行长时间的多轮对话。

提醒缓存从今天开始应用。 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 最新版本，不需要开发者额外操作。当提示长度超过时 1024 个 token 时，API 处理后的部分将自动备份，并以 128 个 token 增量缓存用于单位。缓存数据在 5 到 10 每分钟不活动后自动清除，最多存放。 1 而且缓存数据不会在不同的组织之间共享。

模型蒸馏：从零开始，一站式微调小模型

模型蒸馏这是一个新功能，希望使用大型、强大的模型(例如 GPT-4o 或 o1-preview）输出，微调更小，更成本效率模型(例如 GPT-4o mini），以接近高级模型在特定任务中的性能，但是成本大大降低。

在此之前，蒸馏是一个复杂且容易出错的多步过程。开发者需要手动管理生成数据集、微调模型和评估性能等多个环节。现在，开发者可以 OpenAI 这些任务很容易通过一体化的工作流程在平台上完成。

新型蒸馏套件的提供包括：

1. 存储完成（Stored Completions）：通过 API 自动捕捉和储存 GPT-4o 或 o1-preview 等待模型产生的输入输出对，用于蒸馏的数据集迅速生成。

2. 评定（Evals）：开发者可以创建自定义评估，在不需要手动整合复杂工具的情况下，衡量模型在特定任务中的性能。

3. 集成微调功能（Fin-tuning）：存储完成和 Evals 与现有微调工具无缝整合。

开发者首先通过实际操作， Evals 建立评估来测试目标模型(例如 GPT-4o mini）的表现。然后，使用存储完成功能，自动备份 GPT-4o 输入输出对，建立适合微调的真实数据集。经过审核和优化，这些信息可以用来微调小模型。经过微调，开发者可以重新使用。 Evals 对模型性能进行测试，确保其接近大型模型水平。

目前，模型蒸馏已经向所有开发者开放。为了鼓励开发者使用，OpenAI 每日免费提供 200 万训练 tokens 用于 GPT-4o mini，100 万 tokens 用于 GPT-4o，一直持续到 10 月 31 日。“存储完成”功能免费，Evals 按 token 使用量收费。开发者选择和选择 OpenAI 分享评估结果后，还可以获得每周免费运行。 7 次 Evals。

视觉微调：引入图像数据集， AI 更加“理解”世界

GPT-4o 的 API 增加了视觉微调功能允许开发者使用图像定制模型，除了文本。从而增强模型图像理解能力，进而在视觉搜索、物体检测、自动驾驶、智能城市管理、医学影像分析等领域更加擅长。

在工作过程中，视觉微调类似于文本微调。开发者可以准备格式化的图像数据集并上传到平台，只使用。 100 图像可以显著提高模型的视觉任务性能。模型性能将随着更多数据的加入而持续增强。

例如，食品配送公司 Grab 就通过 100 一个图像示例，教堂 GPT-4o 正确定位交通标志，计算车道分隔线。在基础上 GPT-4o 模型得到了改进 20% 车道记数的准确性和 13% 限速标志定位的准确性，大大提高了地图数据。

视觉微调也已立即使用，付费开发者现在可以使用最新的。 GPT-4o 版本" gpt-4o-2024-08-06 "进行图像微调。OpenAI 在 10 月 31 日前每日提供 100 万免费训练 token，以后按每百万 token 25 美元收费。图像输入按其大小计算，资费标准与文本输入一致。

除上述四个主要工具更新外，OpenAI 还为 Playground 增加了提示词提升功能：只需描述想要通过模型实现的功能，Playground 可以自动生成提示词，以及有效的函数和结构化导出方法，快速地将你的想法转化为实用的原型。

新发布的o1 API 继续宽限：扩大了第 3 层次开发者访问限制，提高各级速度限制（tier 3 每分钟为了使应用更快地进入工作环境，5000)。具体价格和规格请参考。 OpenAI Platform 界面的 Rate limits 选项。

奥特曼现场答疑：仍然重视研究，Agents 将来完成 1 月度工作量，点赞 NotebookLM、o2 比诸位聪明

按照会议日程，会场进行 OpenAI 团队的重要发布和各种更新讲解，分会场为合作伙伴展示和工作坊。

下午 4 点，OpenAI CEO Sam Altman 与 6 首席产品官月新上任 Kevin Weil 登台，开始 45 在几分钟的炉边对话阶段，回答了白天被选中的与会者的问题。

基于推特用户 @swyx 现场整理，两人回答的问题涉及到 OpenAI 使命、AGI、AI 对齐，智能代理等。还特别称赞谷歌。 NotebookLM 和 Anthropic 的 Projects：

问：OpenAI 还在致力于研究吗？

答：OpenAI 与过去相比，我们更加致力于研究。以前我们只专注于扩大规模，其他公司效仿 OpenAI 也没问题。但是当我们试图创造一个全新的东西时，研究仍然很重要。OpenAI 研究与产品将在未来继续紧密结合。

问：我们离 AGI 多远？

答：通过 o1，我们显然已经到了第二阶段。从上次开始 DevDay 的 GPT-4 Turbo 到 o1 它们之间取得了很大的进步，未来两年的发展速度将特别快。AGI 这将是一个平滑的指数增长过程，没有明确的界限或里程碑。没有人在意图灵测试被跨越的具体时刻，历史学家在回顾未来时可能会有不同的看法。

问：AI 什么是控制计算机的难题？

答：可靠与一致。

问：OpenAI 只是口头上重视一致性吗？

答：我们非常关心建立一个安全的系统。我们希望开发一个功能强大的模型，这些模型会随着时间的推移变得更加安全。o1 很明显，它是我们最强大的模型，也是我们最一致的模型。

问：o1 支持年底前的功能调用和系统提示吗？

回答：模型将变得更好。o1 现在处于 GPT-2 大小，我们知道怎样把它提高到？ GPT-4 标准，计划就是让模型快速提升性能。

问题：智能代理（Agents）怎样融入 OpenAI 长远规划？

答：聊天功能很棒，但是如果你想象一些事情能够实现相当于人类几天的努力呢？目前讨论代理技术还不是很严重，但是会给世界的运营模式带来很大的变化。要求代理人完成一些需要一个月甚至更多时间的任务。到 2030 2008年，每个人都会把这一切当成理所当然。

问：使用 AI 创业公司作为主要功能该怎么办？

答：AI 这并不能使你摆脱正常的商业规则。

问题：语音功能与人类感觉直接相关，伦理考虑？

答：我会对 ChatGPT 说“请”和“谢谢”，其他的你永远不会确定。

问题：您欣赏竞争者的哪些功能或能力？

答（Sam）：NotebookLM，做得很好。现在推出优秀新产品的人不多。

答（Kevin）：Anthropic 的Projects做得很好。GPTs 设计用于长期重复使用， Anthropic 的 Projects 很短，但是它的心智模型很有效。

Altman 还强调希望高级语音模式之后能实现唱功能，但目前还是比较保守的。以及模型的长前后语言能力。 1000 万 token，10 万亿 token 将在十年内实现(但是没人提到 OpenAI 架构转换和 7% 股份问题)。

最后，对话阶段，Altman 还向台下开发者提出了一个问题：“谁觉得自己比自己好？ o1 更聪明？"

有些人举起手来。

"你觉得在 o2 你在发布的时候还这么想吗？” Altman继续问道。

这次回应他的，只有微微紧张的笑声。

OpenAI 全力以赴争取开发者

DevDay 举行的时候，正好也是 OpenAI 筹集 70 重要融资亿美元，高层管理团队大换血，口碑形象连遭外界批评的动荡关头。

首席产品官 Weil 根据媒体简报，公司的进展不会因为高管离职而放缓。

”“我们现在拥有超越 300 近两年来，万名开发者， API 成本已经降低 98%。"

引入今天的高级语音、视觉微调、蒸馏等功能。 API，从整体价格下降和各种鼓励政策，到占用用户用例展示。 ... 足以见得，OpenAI 我们正在说服许多开发者，他们仍然在建立自己。 AI 最佳应用平台。

但 OpenAI 地位并非固若金汤。一个在硅谷做的人 AI 社会代理的开发者告诉硅星人，他们选择了自己。 OpenAI API 原因是他们起步早，在很长一段时间内处于行业领先地位，特别是 coding 做得很好。能力稳定可用，调用方法简单，学习成本低，逐步降价对开发者来说也是可以接受的。

“但现在我们也在考虑使用它。 Claude。由于他们开发了一种新的思想，即通过伪代码进行思考。 prompt 去优化结果。这在体验上非常相似。 o1，但是比 o1 更快更便宜。它的 projects 和 super prompt 这个功能很棒。

OpenAI 这场风暴之后，研发明显停滞不前。许多事情还没有更新。而且还有。 Claude 只是一片生机勃勃，现在用得很好， Claude 人们给我的感觉是更聪明，更会用。 AI 的人。"

面临这些竞争，OpenAI 这次发布的这些 API 诚意满满，同时价格也不算太低。

今天，模型方面不能直接降维攻击遥遥领先，OpenAI 专注于争夺开发者，想用最好的产品吸引开发者和客户。在今天的竞争中，每个人都想成为最赚钱的人，这样他们就可以为下一次遥遥领先的机会做好充分的准备。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

声称英伟达停止开发双柜版本。 NVL36*2GB200AI 机柜