OpenAI礼包:实时语音,模型蒸馏都上了,要卖最好的货赚最多的钱。
今天,OpenAI 2024 年首场 DevDay 在旧金山 2 号码头的 Gateway Pavilion 低调举行。
不像去年风风火火的官方公告,今年开发者日的消息只在两个月前。 OpenAI Developers 的 X 帐号出现过一次,以至于很多人都不知道这件事。
与会者基本上都是应邀用户和筛选出来的一线开发者。地点保密到最后一刻,直到那天才透露出神秘的日程,而且没有直播。
会前,Sam Altman 迅速发布一条推特:
"今日为开发者推出了一些新工具!
从上次 DevDay 到这次:GPT-4 到 4o mini 的每个 token 成本下降了 我们系统中的98% token 量增加了 50 倍,模型智能取得了突出的进步,在此期间还有一点小小的进步。 drama。
我对从这次 DevDay 期待下一步的进展。通向 AGI 这条路从来没有这么清晰过。"
就像以前公司开发者感受主管的感受一样。 Romain Huet 在 X 这个平台告诉我们,今年 DevDay 不发布任何新模型,只集中在新模型上。 API 改善。
而 OpenAI 而且确实在这个名副其实的“开发者日”上,包装带来了即时 API、提示缓存,模型蒸馏,视觉微调,Playground 提升,以及扩大 o1 API 面向开发者的一系列重要工具,如范围、提高速度限制等。
而这些新 API 定价并非绝对便宜,许多开发者评价当其定价与能力相结合时,才显得有吸引力。这次真诚的开发者礼包一次性提供,OpenAI 或者希望通过销售最好的商品,赚到最多的钱。
即时 API:一步一步地建立自己。 Her "应用
这是当今最引人注目的功能,即时 API (Realtime API)允许开发者调用 ChatGPT 底层模型的高级语音模式 gpt-4o-realtime-preview,构建快速、自然的语音到语音对话感受的应用。支持 6 一种预设语音,实现低延迟语音交互。
以前建立语音助手的时候,开发者需要依靠多个模型来完成不同的任务:首先使用类似的模型 Whisper 语音识别模型将音频转录成文本,然后将文本传达给语言模型进行推理,最后从文本到语音模型生成语音导出。不仅过程复杂,而且容易失去情绪和口音,有明显的延迟。
而即时 API 整个对话过程只需一次调用即可完成。音频输入输出通过流式传输大大提高了对话的自然性和响应速度。持续使用 WebSocket 连接与 GPT-4o 交换信息,并支持函数调用,可以快速响应请求,执行以下订单或提供人性化服务等操作。也可以像高级语音模式一样自动处理中断,保证客户体验更顺畅,特别适合需要高度互动的场景,比如客户支持、外语学习等。
现场,工作人员进行了实时演示。 API 建立语音助理,帮助台下。 100 许多开发者“打电话下单” 400 一个草莓外卖” demo。
目前,即时 API 公开测试版已经向所有付费开发者开放。在定价方面,每百万 token 输入 5 美金,导出 20 大约每分钟音频输入美元 0.06 美金,导出 0.24 美金。
开发者可以通过 Playground 或者官方文档快速入门,借助于 LiveKit、Agora、Twilio 等待合作伙伴提供的音频组件库,集成回声消除、声音隔离等功能,进而轻松构建和安排语音助手。
OpenAI 同时也计划不断完善即时 API,包含更多模式支持(视觉和视频)、提升速度限制,提供官方服务 SDK、引入提醒缓存,扩展到 GPT-4o mini 等待模型,进一步拓展开发者的应用领域。
提醒缓存:1 在一小时内重复调用 token 享五折
许多开发者正在建立 AI 在应用中,经常会有多个应用。 API 使用相同的调用前后文,提醒缓存正是为了降低重复调用的成本和延迟。
在再次调用这些内容时,它能自动备份开发者最近使用的输入内容,并提供 50% 费用折扣,同时加快响应速度。很适合编辑代码库,或者和聊天机器人进行长时间的多轮对话。
提醒缓存从今天开始应用。 GPT-4o、GPT-4o mini、o1-preview 和 o1-mini 最新版本,不需要开发者额外操作。当提示长度超过时 1024 个 token 时,API 处理后的部分将自动备份,并以 128 个 token 增量缓存用于单位。缓存数据在 5 到 10 每分钟不活动后自动清除,最多存放。 1 而且缓存数据不会在不同的组织之间共享。
模型蒸馏:从零开始,一站式微调小模型
模型蒸馏这是一个新功能,希望使用大型、强大的模型(例如 GPT-4o 或 o1-preview)输出,微调更小,更成本效率模型(例如 GPT-4o mini),以接近高级模型在特定任务中的性能,但是成本大大降低。
在此之前,蒸馏是一个复杂且容易出错的多步过程。开发者需要手动管理生成数据集、微调模型和评估性能等多个环节。现在,开发者可以 OpenAI 这些任务很容易通过一体化的工作流程在平台上完成。
新型蒸馏套件的提供包括:
1. 存储完成(Stored Completions):通过 API 自动捕捉和储存 GPT-4o 或 o1-preview 等待模型产生的输入输出对,用于蒸馏的数据集迅速生成。
2. 评定(Evals):开发者可以创建自定义评估,在不需要手动整合复杂工具的情况下,衡量模型在特定任务中的性能。
3. 集成微调功能(Fin-tuning):存储完成和 Evals 与现有微调工具无缝整合。
开发者首先通过实际操作, Evals 建立评估来测试目标模型(例如 GPT-4o mini)的表现。然后,使用存储完成功能,自动备份 GPT-4o 输入输出对,建立适合微调的真实数据集。经过审核和优化,这些信息可以用来微调小模型。经过微调,开发者可以重新使用。 Evals 对模型性能进行测试,确保其接近大型模型水平。
目前,模型蒸馏已经向所有开发者开放。为了鼓励开发者使用,OpenAI 每日免费提供 200 万训练 tokens 用于 GPT-4o mini,100 万 tokens 用于 GPT-4o,一直持续到 10 月 31 日。“存储完成”功能免费,Evals 按 token 使用量收费。开发者选择和选择 OpenAI 分享评估结果后,还可以获得每周免费运行。 7 次 Evals。
视觉微调:引入图像数据集, AI 更加“理解”世界
GPT-4o 的 API 增加了视觉微调功能允许开发者使用图像定制模型,除了文本。从而增强模型图像理解能力,进而在视觉搜索、物体检测、自动驾驶、智能城市管理、医学影像分析等领域更加擅长。
在工作过程中,视觉微调类似于文本微调。开发者可以准备格式化的图像数据集并上传到平台,只使用。 100 图像可以显著提高模型的视觉任务性能。模型性能将随着更多数据的加入而持续增强。
例如,食品配送公司 Grab 就通过 100 一个图像示例,教堂 GPT-4o 正确定位交通标志,计算车道分隔线。在基础上 GPT-4o 模型得到了改进 20% 车道记数的准确性和 13% 限速标志定位的准确性,大大提高了地图数据。
视觉微调也已立即使用,付费开发者现在可以使用最新的。 GPT-4o 版本" gpt-4o-2024-08-06 "进行图像微调。OpenAI 在 10 月 31 日前每日提供 100 万免费训练 token,以后按每百万 token 25 美元收费。图像输入按其大小计算,资费标准与文本输入一致。
除上述四个主要工具更新外,OpenAI 还为 Playground 增加了提示词提升功能:只需描述想要通过模型实现的功能,Playground 可以自动生成提示词,以及有效的函数和结构化导出方法,快速地将你的想法转化为实用的原型。
新发布的o1 API 继续宽限:扩大了第 3 层次开发者访问限制,提高各级速度限制(tier 3 每分钟 为了使应用更快地进入工作环境,5000)。具体价格和规格请参考。 OpenAI Platform 界面的 Rate limits 选项。
奥特曼现场答疑:仍然重视研究,Agents 将来完成 1 月度工作量,点赞 NotebookLM、o2 比诸位聪明
按照会议日程,会场进行 OpenAI 团队的重要发布和各种更新讲解,分会场为合作伙伴展示和工作坊。
下午 4 点,OpenAI CEO Sam Altman 与 6 首席产品官月新上任 Kevin Weil 登台,开始 45 在几分钟的炉边对话阶段,回答了白天被选中的与会者的问题。
基于推特用户 @swyx 现场整理,两人回答的问题涉及到 OpenAI 使命、AGI、AI 对齐,智能代理等。还特别称赞谷歌。 NotebookLM 和 Anthropic 的 Projects:
问:OpenAI 还在致力于研究吗?
答:OpenAI 与过去相比,我们更加致力于研究。以前我们只专注于扩大规模,其他公司效仿 OpenAI 也没问题。但是当我们试图创造一个全新的东西时,研究仍然很重要。OpenAI 研究与产品将在未来继续紧密结合。
问:我们离 AGI 多远?
答:通过 o1,我们显然已经到了第二阶段。从上次开始 DevDay 的 GPT-4 Turbo 到 o1 它们之间取得了很大的进步,未来两年的发展速度将特别快。AGI 这将是一个平滑的指数增长过程,没有明确的界限或里程碑。没有人在意图灵测试被跨越的具体时刻,历史学家在回顾未来时可能会有不同的看法。
问:AI 什么是控制计算机的难题?
答:可靠与一致。
问:OpenAI 只是口头上重视一致性吗?
答:我们非常关心建立一个安全的系统。我们希望开发一个功能强大的模型,这些模型会随着时间的推移变得更加安全。o1 很明显,它是我们最强大的模型,也是我们最一致的模型。
问:o1 支持年底前的功能调用和系统提示吗?
回答:模型将变得更好。o1 现在处于 GPT-2 大小,我们知道怎样把它提高到? GPT-4 标准,计划就是让模型快速提升性能。
问题:智能代理(Agents)怎样融入 OpenAI 长远规划?
答:聊天功能很棒,但是如果你想象一些事情能够实现相当于人类几天的努力呢?目前讨论代理技术还不是很严重,但是会给世界的运营模式带来很大的变化。要求代理人完成一些需要一个月甚至更多时间的任务。到 2030 2008年,每个人都会把这一切当成理所当然。
问:使用 AI 创业公司作为主要功能该怎么办?
答:AI 这并不能使你摆脱正常的商业规则。
问题:语音功能与人类感觉直接相关,伦理考虑?
答:我会对 ChatGPT 说“请”和“谢谢”,其他的你永远不会确定。
问题:您欣赏竞争者的哪些功能或能力?
答(Sam):NotebookLM,做得很好。现在推出优秀新产品的人不多。
答(Kevin):Anthropic 的Projects做得很好。GPTs 设计用于长期重复使用, Anthropic 的 Projects 很短,但是它的心智模型很有效。
Altman 还强调希望高级语音模式之后能实现唱功能,但目前还是比较保守的。以及模型的长前后语言能力。 1000 万 token,10 万亿 token 将在十年内实现(但是没人提到 OpenAI 架构转换和 7% 股份问题)。
最后,对话阶段,Altman 还向台下开发者提出了一个问题:“谁觉得自己比自己好? o1 更聪明?"
有些人举起手来。
"你觉得在 o2 你在发布的时候还这么想吗?” Altman继续问道。
这次回应他的,只有微微紧张的笑声。
OpenAI 全力以赴争取开发者
DevDay 举行的时候,正好也是 OpenAI 筹集 70 重要融资亿美元,高层管理团队大换血,口碑形象连遭外界批评的动荡关头。
首席产品官 Weil 根据媒体简报,公司的进展不会因为高管离职而放缓。
”“我们现在拥有超越 300 近两年来,万名开发者, API 成本已经降低 98%。"
引入今天的高级语音、视觉微调、蒸馏等功能。 API,从整体价格下降和各种鼓励政策,到占用用户用例展示。 ... 足以见得,OpenAI 我们正在说服许多开发者,他们仍然在建立自己。 AI 最佳应用平台。
但 OpenAI 地位并非固若金汤。一个在硅谷做的人 AI 社会代理的开发者告诉硅星人,他们选择了自己。 OpenAI API 原因是他们起步早,在很长一段时间内处于行业领先地位,特别是 coding 做得很好。能力稳定可用,调用方法简单,学习成本低,逐步降价对开发者来说也是可以接受的。
“但现在我们也在考虑使用它。 Claude。由于他们开发了一种新的思想,即通过伪代码进行思考。 prompt 去优化结果。这在体验上非常相似。 o1,但是比 o1 更快更便宜。它的 projects 和 super prompt 这个功能很棒。
OpenAI 这场风暴之后,研发明显停滞不前。许多事情还没有更新。而且还有。 Claude 只是一片生机勃勃,现在用得很好, Claude 人们给我的感觉是更聪明,更会用。 AI 的人。"
面临这些竞争,OpenAI 这次发布的这些 API 诚意满满,同时价格也不算太低。
今天,模型方面不能直接降维攻击遥遥领先,OpenAI 专注于争夺开发者,想用最好的产品吸引开发者和客户。在今天的竞争中,每个人都想成为最赚钱的人,这样他们就可以为下一次遥遥领先的机会做好充分的准备。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




