豆包“蒸熟”，情商智商全部提高！

2025-01-23

下面的文章来源于科创板日报，作者宋子乔

科创板日报.

服务新质量生产力发展是科技创新板、新产业和未来产业发展的重要新闻媒体。它提供由上海报业集团主办、财联社出品的媒体、数据、投资银行、城市产业发展等服务体系。

一月二十日，豆包实时语音模型正式推出。

据报道，豆包实时语音模型是一种语音理解和生成的一体化模型，完成了端到端的语音对话，主要面向中文情境和场景(可以进行英语对话，暂时不支持多种语言；在中文范围内，模型只支持理解和表达少量方言和地方口音，还有很大的提升空间)。

该模型依托语音和语义的联合建模，表现出接近真人的语音表达水平，在语音感染力、控制力和情绪承受能力方面表现惊人，具有延迟低、对话中随时可以中断等特点。

击败GPT-4o？

2025年1月，OpenAI最新大型GPT-4o高级语音功能全面推出。

值得注意的是，豆包的实时语音模型直接与GPT-4o进行比较。据豆包大模型团队介绍，在外部真实众测中，模型的整体满意度明显优于GPT-4o，主要表现在:

豆包模型的语音语气自然度和情感饱满度远高于后者，尤其是在情商方面。该模型在情绪理解、情绪接受和情绪表达方面也取得了显著进展，能够准确捕捉和回应人类的情感信息；

豆包模型符合中国客户的实际需求，发布即上线，有实力直接为亿万客户服务，而不是停留在演示Demo上。

就整体满意度(以5分为满分)而言，豆包实时语音模型评分为4.36，GPT-4o是3.18。在这些测试中，50%的测试者对豆包的实时语音模型表现进行了满分。

如何做到？

低延迟、流畅互动、拟人化的语气和情感反馈是区分人和机器的两个重要特征。豆包大模型团队如何让大语音模型停止“听就是AI”？

该团队开发了一套端到端框架，将语音和文本模式紧密结合。该框架针对语音生成和理解进行统一建模，从而达到多模式输入输出的效果。

在预训练（Pretrain）阶段，团队深入训练各种模式交织数据，准确捕捉和高效压缩海量语音信息。通过Scaling，语音和文本能力的紧密结合和能力最大化。

在后期培训阶段，团队采用高质量的数据和RL算法，进一步提供模型的高情商对话能力和安全性，在“智力”和“情商”之间找到平衡。

更加真实的情感陪伴——实时语音AI的价值

AI实时语音的价值体现在哪里？AI情感陪伴是影响最直观的。

根据《科技创新板日报》的实际测量，豆包的大语音模型不仅能感受到你的情绪，还能带来自己的情绪和情绪，可以随时打断对话，让互动更加拟人化。

现实生活中的语音对话可以提供更友好的互动体验和情感价值。AI不再表现出冰冷的“人机感”，而是考验AI的“个性化”水平，是人类走向AGI(通用人工智能)的关键里程碑。

可以说，豆包在即时语音交互方面的进步展现了国产AI软件的进步，有望为AI语音助手硬件、AI玩具等AI端硬件开辟更广阔的空间。

当前AI商品呈现多模态趋势，语音较为常见。随着Transformer架构对信息处理能力的提高，浙商证券预测，2025年将会出现更多的综合多模式交互，将数据、文字、音频、视频等深度结合起来，实现更高维度的人机交互层次，这对硬件侧主板芯片提出了更高的要求。该机构表示，产业链的主要目标包括恒玄科技、中科蓝讯、乐鑫科技、星辰科技、瑞芯微、炬芯科技、全志科技等。

而且AI玩具可以看作是一种机器人，具有人脸识别、语音识别、自然语言理解等技术，可以与用户交谈。伴随着以豆包语音模型为代表的语言模型不断演变，AI玩具的功能将不仅限于对话，还能满足个性化、情感化的需要。广发证券表示，AI玩具跑道兼顾教育和陪伴特点，是AI硬件实际需求的落地方向。该机构关注实丰文化、汤姆猫、奥菲娱乐、上海电影等。

继续滚动阅读下一个轻触阅读原文。