刚刚,OpenAI发布了新一代语音模型,更加个性化的语音agent即将到来。

03-22 09:56

继 2022 第一个音频模型于2008年推出 Whisper,OpenAI 于今天凌晨发布 3 全新的语音模型——


gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts


OpenAI 表示,Operator、Deep Research、Computer-Using Agents 以及 Responses API 发布促进了基于文本的发布。 agent 不断突破任务执行能力和实用性。但是,要让 agent 真正发挥作用,交互技术必须更加直观,超越纯文本输入,支持自然语音交流


OpenAI 表示,最新的语音转文本(STT)该模型在口音适应、嘈杂环境处理和不同语速识别方面优于目前的解决方案,因此在呼叫中心和会议纪要领域具有更高的可靠性。


目前,3 全新的语音模型已上线。 API,基于此,开发者可以创造出更强大、更个性化的语音。 agent。


详情链接:


https://platform.openai.com/docs/guides/audio


另外,开发者还可以为文本提供语音。(TTS)模型设置语音风格。例如, AI 以“富有同理心的客户服务代表”的风格进行交流。这样做 agent 能提供更具温度和表现力的语音体验,在个性化客户服务、讲故事等领域得到广泛应用。


首先要感受两个语音案例:


感受地址:https://www.openai.fm/


这次,据报道 OpenAI 全新的语音模型是通过使用真实的音频数据集进行预训练、强化蒸馏和强化学习来构建的。具体而言:


使用真实的音频数据集预训练训练:全新的音频模型 GPT-4o 和 GPT-4o-mini 基于架构,广泛的预训练是在专门的音频数据集中进行的,这对于优化模型性能尤为重要。这种有目的的方法可以更深入地了解语音的细微差别,并在与音频相关的任务中获得强大的性能。


加强蒸馏方法:强化蒸馏技术实现了从最大音频模型到更小更高效模型的知识转移。他们的蒸馏数据可以通过使用先进的自我游戏方法,有效捕捉真实的对话动态,复制真实的客户助手互动。这有利于小模型提供优秀的对话质量和响应能力。


强化学习:OpenAI 选择强化学习将全新的语音模型转录准确提高到 SOTA 标准。这一方法大大提高了精度,减少了幻觉,使新的语音到文本解决方案在复杂的语音识别场景中更具竞争力。


与实际应用需求相结合的这些技术创新,不仅提高了语音建模能力,而且大大提高了语音建模能力 AI 现实场景中的表现。


与原来的相比 Whisper,新的语音模型在词错率上(WER)、在语言识别能力和准确性方面有了显著提高。新语音模型在多项基准测试中 WER 均低于目前 Whisper 模型。WER 测量语音识别的准确性,数值越小,转录质量越高。


gpt-4o-transcribe 和 gpt-4o-mini-transcribe 在 FLEURS(少样多语言语音标准)检测,覆盖范围 100 多语种,表现均优于 Whisper v2 和 Whisper v3,表现出更广泛的语言适应能力和更准确的转录效果。


而且,在主要语言的评价中,gpt-4o-transcribe 和 gpt-4o-mini-transcribe 超过了市场上其它领先模型,为多语言语音应用提供了更加可靠的技术支持。


OpenAI 推出的 gpt-4o-mini-tts 则具有提高语音可控性(steerability)。第一次,开发者不仅可以“指导”模型说什么,还可以“指导”模型说什么,从而为客户服务到创意故事等各种用户提供更多的定制体验。


值得注意的是,这些文本到语音模型仅限于人工预设语音,OpenAI 这意味着他们会监测它,以确保它们始终符合生成预设语音。


OpenAI 还提出了一些官方使用建议,对于已经使用基于文本的模型来构建对话体验的开发者来说,从文本到语音模型添加新的语音是构建语音模型。 agent 最简单的方法,OpenAI 将发布与 Agents SDK 整合,简化这个开发过程;对于想要构建低延迟语音到语音感受的开发者,可以立即使用。 API 在语音模型中构建语音。


将来,OpenAI 该计划继续提高音频模型的智能性和准确性,帮助开发者利用自己的定制语音来构建更个性化的感觉。,并开发其它模式(包括视频) agent。


整理:学术君


如需转载或投稿,请直接在微信官方账号留言。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com