回声消除技术:为智能设备打造“降噪护盾”

视觉中国供图
◎本报记者都芃
如今,用语音操控智能车机、一句话唤醒智能家电、手机智能助手随叫随到等场景屡见不鲜。凭借便捷、自然的体验,语音交互正深刻改变着智能时代的生产生活方式。而回声消除作为语音交互的核心技术之一,其技术水平直接影响着人们的语音交互体验。
不久前,国家知识产权局公布了第二十五届中国专利金奖项目名单,科大讯飞股份有限公司凭借“基于时延估计的回声消除方法及装置”专利成功入选。该专利技术显著提升了语音系统中的回声消除效果,极大改善了语音系统的实际应用体验。
抓住时延这个关键“钥匙”
提到回声,很多人会想到在山中对着山谷呼喊,随后传来阵阵回声的场景。这是声音传播受阻反射形成的现象。但在语音系统里,回声更多是由麦克风和扬声器耦合导致的。科大讯飞相关技术负责人张科举例说:“比如进行视频会议时,扬声器播放对方声音,如果不进行回声消除,对方声音会被我方麦克风接收并传回对方,使其听到自己说话的回声。”
要消除回声,系统得先识别出回声。张科表示,理想情况下可将扬声器播放前的信号作为基础来抵消回声,但实际情况复杂得多,参考信号与麦克风信号存在时延,所以准确估计时延、矫正对齐信号很关键,这就是基于时延估计的回声消除方法。
该方法的核心是,麦克风收录声音时,系统先通过时延估计算法算出扬声器声音到麦克风的传输时间差,再据此构建动态滤波器,从混合信号中精准剥离扬声器回声,最终留下纯净的用户语音。
例如用语音控制智能机顶盒时,要避免电视声音回传导致误操作。消除回声时,可将机顶盒输出给电视的音视频源信号作为参考信号,计算其与麦克风信号的时延,进而消除回声,得到纯净的语音控制声音。
实现时延估计又快又准
准确计算时延参数并非易事。在真实语音交互环境中,基于时延估计进行回声消除面临三大问题。一是设备振动使信号变形,加上交互时的目标人声,影响时延估计准确率。二是扬声器与麦克风之间的时延受设备采样率、音效变声、网速变化等多种因素影响,动态估计时延是一大挑战。此外,时延估计要及时准确,否则会导致回声消除不干净,系统出现啸叫、自说自话等现象。
针对这些挑战,科大讯飞研发团队在该专利研发中有三大创新。针对设备振动引起信号变形和目标人声叠加难题,团队首创基于相似度的异常频点检测技术,能在声音信号中准确排除变形信号和说话人语音的异常时频点,精准过滤回声。
由于时延会动态变化,团队首创统计与瞬时结合的动态时延估计技术,引入瞬时信息决策,解决时延多变问题。应用该技术后,时延估计准确率从60%大幅提升至98%。
张科称,用统计与瞬时结合的方法进行时延估计仍有不准确问题。团队分析发现,要提升准确率,需先筛选统计量,得到准确的瞬时候选位置,再与统计量结合,难点是平衡速度和准确性。“速度快了可能不准确。”张科介绍,团队经大量实验改进方法,灵活选更短窗长,复用历史滤波器系数,大幅提高滤波器更新及时性,使延迟确认时间从40毫秒降至10毫秒。
广泛应用于多样场景
该专利技术通用性良好,不仅用于回声消除,还广泛用于多类语音场景。比如可为手机、汽车、家电等多麦克风智能硬件语音降噪;在工业生产、智能制造等噪声多样场景中,可快速追踪与识别噪声;还能用于医疗领域,帮助听力辅助设备抑制啸叫。
张科介绍,目前该技术已深度融入科大讯飞智能终端产品矩阵,在消费级产品中广泛应用。像讯飞翻译机、讯飞录音笔等都运用了相关技术。
下一步,团队打算将该技术与深度学习结合,开展基于数据驱动的模型训练,更快更准确地估计时延,进一步提升回声消除效果和降噪能力,以适应更多不同硬件及应用场景。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




