前DeepMind大佬创业,做出喜怒哀乐的AI语音大模型。

02-28 11:17


智慧东西2月27日消息,美国情感智能技术AI企业Hume AI昨日发布了Octavee新文生语音模型,这个大模型可以根据用户输入的提示或者剧本,生成AI语音,具有人的特点,语气起伏,情感色彩。,并且使用者可以使用文本指令二次优化与创作。该公司由Alannd之前的DeepMind研究员 Cowen成立于2021年,最近一轮融资后估值为2.19亿美金


Hume CEOAI联合创始人 Alan 在接受VentureBeat视频通话采访时,Cowen说:“我们已经推出了。第一个AI文学语音模型大模型,该模型可以理解前后文本中的词汇,并计算出适当的情绪、节奏、节奏和重音,从而使AI语音听起来比过去更好。更人性化。”


换句话说,Octave旨在让AI语音更有人情味,而不是过去用一个板一个眼睛阅读文本的AI语音。根据Cowen的描述,这些AI语音不仅包含愤怒、悲伤或快乐,还可以交织各种情绪,如“掺杂幽默或愤怒的轻微抑郁”。在Cowen看来,这种模式更适合需求。事先制作有声读物,播客,视频画外音,视频游戏角色配音。


该公司还在社交平台X上发布了多篇帖子,表明Octave的具体功能和训练过程。根据Hume AI方面透露,用于训练Octave的语言信息是传统文生语音模型的大模型。1000倍,这也是为什么Octave可以像人类演员一样理解剧本,使用更逼真的情感、语义、节奏、短语、重音等因素的原因。训练数据包括数百万小时的公开长篇语音数据和Hume AI独家收集声音,视频数据。


除文生语音大模型外,Hume AI仍在使用Octave训练AI系统,从而更好地预测用户的AI语音生成需求。


Octave输出在音质、自然性、语音生成与预期描述的匹配程度等方面都优于人类审查盲测的对比实验。 ElevenLabs,这意味着AI语音生成过程的可控性和AI语音生成质量都是可控的。高于行业水平



Octave推出之前,Hume 已经推出了AI两代自研的同理心语音界面(EVI),这家公司声称EVI是首先是AI对话式AI,有情商。


Octave目前首发版主要支持的语言是英文,其次是西班牙语,更多的语言可能会在后续推出。另外,这个模型在Hume。 AI开发者平台的使用强度有一定的限制,目前支持的音频格式有一定的MP3、WAV和PCM


01.4AI语音生成功能,可以带入情节和个人设计。


Octave文生语音模型不仅支持生成AI语音,包含人类设计和人类情感色彩,还将引入语音复制功能。


Cowen表示,这种模式不仅可以理解单个句子中的情绪,还可以进一步捕捉前后文本之间的情感联系,从而更具表现力和细节性。Octave不仅可以理解剧情的转折点、情感暗示和角色特征,还可以学会如何将它们结合起来。因此,它不仅可以“温柔地阅读情书”,还可以“充满活力地播放体育比赛”。


1、语音生成:具有情感感知能力和个性化


Octave可以预测语音的特点、节奏和音质,判断什么时候应该用详细的语言,什么时候应该大声喊叫,什么时候应该平静地解释事实。


也就是说,Octave可以分析剧本或提示词中的情节转折、情感暗示和人物特征,并将其转化为带有爱情的自然声音,听起来就像演员在读剧本一样。


2、语音设计:可以深入理解提示词和剧本的含义。


基于提示或剧本,Octave可以生成各种设置的AI语音。这是因为它会自动分析一段文字内容的含义和风格,包括人称代词、缩写、单词等。,然后生成一个与角色一致的连贯语音内容。


此外,在语音设计功能中,您还可以通过更具体的角色描述来引导Octave,例如结合特定的口音、个人设计特征和专业类型。描述类似于“耐心、同理心、用ASMR说话的顾问”。、“戏剧性的中世纪骑士”、中年人好莱坞电影预告片讲解员。


同时,您也可以选择绕过语音设计功能,直接从Playground上生成语音。Octave只会根据剧本生成语音,而不会检查“语音设计”功能,Octave只会根据剧本生成语音,并且可以将其保存为一个新的语音。


但出于安全考虑,涉及到比较逼真的儿童语音和特定人物的模仿语音,其AI语音的生成将受到限制。


3、表演指令:使用AI语音进行二次创建


参考人类演员,Octave也可以接受和理解指令。


根据当前的语音类型,在表演指令功能中,可以进一步使用指定的情绪或说话风格来朗读新剧本。


4、语音复制:即将上线


Hume AI AI说,只需要一段时间5秒Octave可以快速复制音频。Octave开发团队正在寻求这种语音复制功能的安全性,所以这个功能将在下一步进行。几周内稍晚推出。


在接下来的几周里,该公司还计划改进Octave的核心功能,不断优化表现力强的语音生成、不同情绪和风格的提示、新语音的生成以及许多说话者之间的流畅对话。


02.40多种预置语音,开发者现在可以使用了


Octave现在已经存在platform.hume.ai平台和Hume AI的API上线。


现在,在线平台上,创作者和开发者可以使用Octave以下4项功能:


  • 语音设计;
  • 表演指令;
  • 预置语音的语音库超过40种;
  • 项目界面(预览版)用于生成有声书、播客等长篇内容。

但是在开发者平台上,Octave可以通过Python和TypeScript SDK浏览,这些SDK将处理身份认证,并提供一个类型化的接口,以确保整合的稳定性。它的命令界面支持快速原型设计、测试和终端批量处理。


这类开发工具简化了使用Octave生成语音材料的过程,缩短了新语音应用的上市日期。



目前,Hume AIAPI允许开发人员每分钟最多发布Octave模型。50次请求,文本长度上限为5000字符,描述上限为1000字符。最多可以生成每一个请求5个支持的音频格式包括MP3、WAV和PCM。


与ElevenLabs相比,Octave更符合人类的爱好。


Hume AI AI对Octave进行了内部评估,将这个大模型和ElevenLabs是业内领先的AI文生语音模型。进行比较。


这个基准测试包括120个多样化的语音描述样本用于模拟用户在大型文学语音模型中提出的各种语音风格。这些样本不仅涵盖了详细的叙事描述,如“温暖、爸爸般的声音、丰富的低音、略带嘶哑和安心的语气,就像一个有经验的说书人”,还有简洁简短的提示,如“充满活力、年轻、略带沙哑”。


Hume AI团队利用Gemini为每一个描述生成合理的对话,然后分别让Octave和Octave进行对话。VoiceevenLabsAI语音生成工具 Design各生成了3个再让一次语音样本180位与上述两种文生语音模型相比,人类审查盲测是基于相同提示词生成的语音样本,音质、自然和提示词的匹配度投票。


测试数据显示,Octave在这三个人类偏好指标上略胜一筹,音质方面也略胜一筹。71.6%人的审查选择,自然方面的自然性51.7%人的审查选择,而提示词的匹配程度方面有57.7%人们认为它更符合预期。



04.免费版本的声音定制没有限制,标准版本提供超过8h的使用额度。


Hume 目前使用AI订阅制收费方式,主要分为免费、Creator、Creator Pro和Enterprise 四大类收费项目。


  • 免费版:每月1万只字符文本转换为语音,总时长约为10分钟无限自定义声音
  • 入门版3美金/月):每月3万只字符,总时长约30分钟,额外的支持最多20个项目;
  • Creator10美金/月):每月10万只字符,总时长约100分钟,额外字符根据使用量定价。(0.20美金/1000个),额外的支持最多1000个项目;
  • 标准版50美金/月):50万只字符,总时长约500分钟,额外字符根据使用量定价。(0.15美金/1000个),额外的支持最多3000个项目。

商业和企业规模化、规模化访问资费的标准是不同的。


  • 规模(150美金/月):200万只字符,总时长约2000分钟,额外字符根据使用量定价。(0.13 美金/1000个),额外的支持最多1万只项目;
  • 商业(900 美金/月):1000万只字符,总时长约1万分钟,额外字符根据使用量定价。(0.10 美金/1000个),额外的支持最多2万只项目;
  • 公司(自定义价格):批量价格和优先支持,无限使用,定制法律条款,安全保障,大折扣。

05.结论:AI语音类人化的新突破,有望惠及数字人等行业


目前,AI语音仍然是人机交互的主要方式。


Hume 新的AI文学语音模型Octave及其情感智能语音技术有望应对AI语音应答机械、语气僵硬、音质千篇一律的痛点,促进人机语音交互更接近人与人之间的交流。


与此同时,Octave还可以为影视、视听、新媒体、数字人等多个行业产生定制的配声,加速AI语音的商业化。


本文来自微信微信官方账号 “智东西”(ID:zhidxcom),作者:徐 豫,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com