回声消除技术：为智能设备打造“降噪护盾”

2025-07-30

视觉中国供图

◎本报记者都芃

如今，用语音操控智能车机、一句话唤醒智能家电、手机智能助手随叫随到等场景屡见不鲜。凭借便捷、自然的体验，语音交互正深刻改变着智能时代的生产生活方式。而回声消除作为语音交互的核心技术之一，其技术水平直接影响着人们的语音交互体验。

不久前，国家知识产权局公布了第二十五届中国专利金奖项目名单，科大讯飞股份有限公司凭借“基于时延估计的回声消除方法及装置”专利成功入选。该专利技术显著提升了语音系统中的回声消除效果，极大改善了语音系统的实际应用体验。

抓住时延这个关键“钥匙”

提到回声，很多人会想到在山中对着山谷呼喊，随后传来阵阵回声的场景。这是声音传播受阻反射形成的现象。但在语音系统里，回声更多是由麦克风和扬声器耦合导致的。科大讯飞相关技术负责人张科举例说：“比如进行视频会议时，扬声器播放对方声音，如果不进行回声消除，对方声音会被我方麦克风接收并传回对方，使其听到自己说话的回声。”

要消除回声，系统得先识别出回声。张科表示，理想情况下可将扬声器播放前的信号作为基础来抵消回声，但实际情况复杂得多，参考信号与麦克风信号存在时延，所以准确估计时延、矫正对齐信号很关键，这就是基于时延估计的回声消除方法。

该方法的核心是，麦克风收录声音时，系统先通过时延估计算法算出扬声器声音到麦克风的传输时间差，再据此构建动态滤波器，从混合信号中精准剥离扬声器回声，最终留下纯净的用户语音。

例如用语音控制智能机顶盒时，要避免电视声音回传导致误操作。消除回声时，可将机顶盒输出给电视的音视频源信号作为参考信号，计算其与麦克风信号的时延，进而消除回声，得到纯净的语音控制声音。

实现时延估计又快又准

准确计算时延参数并非易事。在真实语音交互环境中，基于时延估计进行回声消除面临三大问题。一是设备振动使信号变形，加上交互时的目标人声，影响时延估计准确率。二是扬声器与麦克风之间的时延受设备采样率、音效变声、网速变化等多种因素影响，动态估计时延是一大挑战。此外，时延估计要及时准确，否则会导致回声消除不干净，系统出现啸叫、自说自话等现象。

针对这些挑战，科大讯飞研发团队在该专利研发中有三大创新。针对设备振动引起信号变形和目标人声叠加难题，团队首创基于相似度的异常频点检测技术，能在声音信号中准确排除变形信号和说话人语音的异常时频点，精准过滤回声。

由于时延会动态变化，团队首创统计与瞬时结合的动态时延估计技术，引入瞬时信息决策，解决时延多变问题。应用该技术后，时延估计准确率从60%大幅提升至98%。

张科称，用统计与瞬时结合的方法进行时延估计仍有不准确问题。团队分析发现，要提升准确率，需先筛选统计量，得到准确的瞬时候选位置，再与统计量结合，难点是平衡速度和准确性。“速度快了可能不准确。”张科介绍，团队经大量实验改进方法，灵活选更短窗长，复用历史滤波器系数，大幅提高滤波器更新及时性，使延迟确认时间从40毫秒降至10毫秒。

广泛应用于多样场景

该专利技术通用性良好，不仅用于回声消除，还广泛用于多类语音场景。比如可为手机、汽车、家电等多麦克风智能硬件语音降噪；在工业生产、智能制造等噪声多样场景中，可快速追踪与识别噪声；还能用于医疗领域，帮助听力辅助设备抑制啸叫。

张科介绍，目前该技术已深度融入科大讯飞智能终端产品矩阵，在消费级产品中广泛应用。像讯飞翻译机、讯飞录音笔等都运用了相关技术。

下一步，团队打算将该技术与深度学习结合，开展基于数据驱动的模型训练，更快更准确地估计时延，进一步提升回声消除效果和降噪能力，以适应更多不同硬件及应用场景。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

上海警方破获销售假LABUBU团伙，已售数十万件

网文生子热潮：幻想背后的现实映射

烧15亿打广告，雷军力挺的鱼泡直聘，难敲白领市场大门？

北京农产品质量安全专家团队深入顺义基地开展科技服务

2025年华北五省市测绘地理信息学术交流与业务研讨盛会举行

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂