豆包“蒸熟”,情商智商全部提高!

01-23 09:17

下面的文章来源于科创板日报 ,作者宋子乔


科创板日报.


服务新质量生产力发展是科技创新板、新产业和未来产业发展的重要新闻媒体。它提供由上海报业集团主办、财联社出品的媒体、数据、投资银行、城市产业发展等服务体系。


一月二十日,豆包实时语音模型正式推出。


据报道,豆包实时语音模型是一种语音理解和生成的一体化模型,完成了端到端的语音对话,主要面向中文情境和场景(可以进行英语对话,暂时不支持多种语言;在中文范围内,模型只支持理解和表达少量方言和地方口音,还有很大的提升空间)。


该模型依托语音和语义的联合建模,表现出接近真人的语音表达水平,在语音感染力、控制力和情绪承受能力方面表现惊人,具有延迟低、对话中随时可以中断等特点。


击败GPT-4o?


2025年1月,OpenAI最新大型GPT-4o高级语音功能全面推出。


值得注意的是,豆包的实时语音模型直接与GPT-4o进行比较。据豆包大模型团队介绍,在外部真实众测中,模型的整体满意度明显优于GPT-4o,主要表现在:


豆包模型的语音语气自然度和情感饱满度远高于后者,尤其是在情商方面。该模型在情绪理解、情绪接受和情绪表达方面也取得了显著进展,能够准确捕捉和回应人类的情感信息;


豆包模型符合中国客户的实际需求,发布即上线,有实力直接为亿万客户服务,而不是停留在演示Demo上。


就整体满意度(以5分为满分)而言,豆包实时语音模型评分为4.36,GPT-4o是3.18。在这些测试中,50%的测试者对豆包的实时语音模型表现进行了满分。


如何做到?


低延迟、流畅互动、拟人化的语气和情感反馈是区分人和机器的两个重要特征。豆包大模型团队如何让大语音模型停止“听就是AI”?


该团队开发了一套端到端框架,将语音和文本模式紧密结合。该框架针对语音生成和理解进行统一建模,从而达到多模式输入输出的效果。


在预训练(Pretrain)阶段,团队深入训练各种模式交织数据,准确捕捉和高效压缩海量语音信息。通过Scaling,语音和文本能力的紧密结合和能力最大化。


在后期培训阶段,团队采用高质量的数据和RL算法,进一步提供模型的高情商对话能力和安全性,在“智力”和“情商”之间找到平衡。


更加真实的情感陪伴——实时语音AI的价值


AI实时语音的价值体现在哪里?AI情感陪伴是影响最直观的。


根据《科技创新板日报》的实际测量,豆包的大语音模型不仅能感受到你的情绪,还能带来自己的情绪和情绪,可以随时打断对话,让互动更加拟人化。


现实生活中的语音对话可以提供更友好的互动体验和情感价值。AI不再表现出冰冷的“人机感”,而是考验AI的“个性化”水平,是人类走向AGI(通用人工智能)的关键里程碑。


可以说,豆包在即时语音交互方面的进步展现了国产AI软件的进步,有望为AI语音助手硬件、AI玩具等AI端硬件开辟更广阔的空间。


当前AI商品呈现多模态趋势,语音较为常见。 随着Transformer架构对信息处理能力的提高,浙商证券预测,2025年将会出现更多的综合多模式交互,将数据、文字、音频、视频等深度结合起来,实现更高维度的人机交互层次,这对硬件侧主板芯片提出了更高的要求。该机构表示,产业链的主要目标包括恒玄科技、中科蓝讯、乐鑫科技、星辰科技、瑞芯微、炬芯科技、全志科技等。


而且AI玩具可以看作是一种机器人,具有人脸识别、语音识别、自然语言理解等技术,可以与用户交谈。伴随着以豆包语音模型为代表的语言模型不断演变,AI玩具的功能将不仅限于对话,还能满足个性化、情感化的需要。广发证券表示,AI玩具跑道兼顾教育和陪伴特点,是AI硬件实际需求的落地方向。该机构关注实丰文化、汤姆猫、奥菲娱乐、上海电影等。


继续滚动阅读下一个轻触阅读原文。


财联社向上滑动,看下一个


原题:“豆包“蒸”,情商智商都提高了!”


阅读原文


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com