揭开AI玩具“听清语音”的奥秘!这几款语音前端芯片打造顶级交互体验
电子发烧友网报道(文 / 黄山明)在AI大模型的助力下,AI玩具最重要的功能当属语音交互。而要实现良好的语音交互,离不开语音前端处理芯片的支持。
由于玩具麦克风拾取的声音中混杂着喇叭回声、环境噪声和混响,而主控SoC的算力、功耗和实时性难以承受7×24小时的AEC+NR+Beamforming+唤醒运算。因此,前端芯片需要先截取出“干净的人声”,再将其传送给主控或云端,这样才能同时保证打断唤醒、低误触发和低功耗。
所以,在目前的AI玩具中,一款优秀的语音前端处理芯片能显著提升用户的使用体验。
以今年市场上已量产的AI玩具为例,像Haivivi BubblePal、字节“显眼包”挂件,采用的是启英泰伦CI1302/1303。这两款芯片是专为智能语音交互场景设计的专用芯片,特别适合AI玩具、智能家电等轻量化语音交互设备。
这两款新品均采用220 MHz 32 - bit CPU以及第三代BNPU(脑神经网络处理器)。在语音交互方面,内置128ms频域回声消除,喇叭→MIC回采衰减≥45dB。与BNPU联合进行“DNN残差降噪”,在70dB环境噪声下,实测识别率仍≥85%,唤醒率≥90%。
启英泰伦的CI1306芯片应用于儿童陪护机器人,它是第三代高性能神经网络智能语音芯片的旗舰型号,专为高复杂度离线语音交互场景设计,尤其适合对语音识别精度、抗噪能力和自然对话能力要求较高的产品。
与CI1302/1303的单麦方案不同,CI1306采用双麦克风深度语音增强,也是CI130X系列中唯一明确支持完整双麦算法栈的型号,具备波束成形、声源定位、深度人声分离、AEC、混响抑制等功能。
汤姆猫AI童伴机器人采用的是全志R128 - S3,采用RISC - V XuanTie C906与Arm M33 Star MCU双核异构架构,搭配HiFi5 DSP。集成1个24位音频编解码器DAC通道,3个ADC通道,DAC播放路径中的信噪比高达119dB,ADC记录路径期间的信噪比高达98dB,可提供高质量的语音输入输出处理,确保语音信号的清晰和准确。
简单来讲,全志的这款R128 - S3,单芯片就能让200元以内的AI玩具实现5米远场打断唤醒、本地500命令词、云端大模型连续对话,是目前市场上在性能、功耗和BOM方面平衡得极为出色的中端陪护机器人的语音SoC方案。
还有应用在一些绘本机器人上的炬芯ATS3703,这是一颗定位中端AI玩具+早教机器人的多媒体SoC,官方将语音交互做成硬加速模块,而非外挂DSP。参数上拥有双路24 - bit ADC,SNR 98 dB,可直接接2×差分模拟MIC或4×PDM数字麦,内置128 ms硬件频域AEC,回声消除深度≥45 dB,芯片级DNN降噪加速单元(10 GOPS INT8),在60 dB环境噪声下唤醒率保持≥90%。
炬芯ATS3703单芯片可让200 - 400元的早教机器人实现3 - 5米远场打断唤醒、本地自然说、视频聊天、人脸识别,是目前中端陪护类AI玩具出货量靠前的多媒体语音方案。
一些能够看向人再进行交互的AI玩具采用了泰芯TXW81x,这是一枚Wi - Fi+蓝牙双模、音视频All - in - One的2.4 GHz SoC,官方将语音前端和声学前处理做成硬加速IP,主打50 – 300元价位带屏AI玩具。
参数方面,Audio Codec采用双路24 - bit ADC,SNR 98 dB;DAC SNR 95 dB,采样率8 – 48 kHz可配。PDM接口上内置4×PDM通道,可直接接4路数字MEMS麦。硬件AEC拥有128ms频域回声消除,回声抑制≥45 dB,喇叭90dB播放时仍可打断唤醒。还具有啸叫抑制功能,片内自适应Howling - suppression,增益> 40 dB无自激,适合喇叭 - 麦克风同腔玩具。
该芯片能让带屏AI玩具实现5米远场打断、本地500命令词、云端大模型连续对话、妈妈音色克隆,是目前中高端陪护类玩具出货量增长最快的音视频无线SoC方案。
小结
AI玩具的对话体验并非仅由大模型决定;一颗成本占比可能极低的语音前端处理芯片先优化声学环境,后续的云端/端侧大模型才能听得清、答得快、功耗低。
更多热点文章阅读
点击关注 星标我们
将我们设为星标,不错过每一次更新!

喜欢就奖励一个“在看”吧!
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com

