如何更好地进行智能驾驶舱-车载语音交互？

2024-08-02

从早期的踏板物理按钮到电子遥控，汽车的人机交互模式现在已经发展到语音、按钮、手势、视觉等多模式交互模式。其中，语音交互是目前智能联网汽车所必需的，本文对车载语音交互进行了初步整理。

第一，语音交互过程

虽然在日常用车过程中，通过唤醒词→发出指令→汽车机器反馈的过程已经习惯了语音交互，但整个语音交互过程并没有用户感知的那么简单。以客户的语音交互请求为例，展示汽车语音交互的整体链接和过程:

第一，顾客发起语音请求 (一般来说，语音唤醒或汽车按钮是通过语音唤醒词唤醒的，这里就不重复语音唤醒的过程了。)汽车麦克风拾音后，调用语音增强能力接口，增强音频回声消除、噪声抑制等语音处理，提高音频质量。

自动识别和转写语音增强后的音频，转写后的文本作为文本进行后处理，如标点符号的处理、敏感词的检测和大小写的整齐等。

文本识别整齐后，进行语义理解 (包括语义提取、前后文交互、信源搜索、对话管理等)，给出语义理解的结果。

得到语义结果后，车机分析出相应的技能名称、意图和语义槽，然后根据相应的技能交互设计在交互中展示和控制。（如 UI 展示天气查询的结果，TTS 播报天气查询记录，控制空调等。

具体流程示意图如下：

其中，语义理解（NLU）和语音合成（TTS）这里需要使用人工智能模型。 AI 可以采用能力调用的方式 2 方法：车端本地 AI 能力、云端 AI 能力。

车端当地 AI 能力的优势在于，客户的语音交互需求可以在没有网络或弱网络的前提下实现。但由于是本地化的部署方式，成本较高，后续的更新和维护只能使用。 OTA 升级方式；

云端 AI 能力的优点是性能和效果更好，调用成本低，维护升级比汽车更方便。但对汽车网络通信环境的稳定性有一定的要求，否则语音交互会出现问题，导致使用体验不佳。

第二，目前语音交互的核心应用领域

语音交互极大地解放了驾驶员的注意力，使得越来越多的操作变得简单方便。目前，驾驶舱内语音交互的核心应用领域如下:

地图导航

娱乐性信息(音乐、视频、照片、新闻等)

社交信息(电话、短信、微信等)

机器控制(空调、窗户、座椅等)

根据语音交互的主从关系，也分为被动语音交互和主动语音交互。目前大部分语音交互都是围绕被动语音交互在各种应用场景中的落地，而主动语音交互目前还没有深入挖掘场景。目前主要用于驾驶提示，如驾驶时没有系安全带。然而，随着被动语音交互的逐渐普及，语音交互的产品亮点逐渐扩展到主动语音交互，特别是借助人工智能和用户的驾驶大数据，如:

车辆油量和电量不足，车辆主动发出语音提示，并给附近的加油站和充电站导航，供用户检查；

车辆将进入隧道，车辆主动提醒是否设置为内循环模式，避免隧道内空气浑浊影响车内空气质量；

感知当前雾天，主动提醒打开雾灯，等待车主确认；

等等

第三，目前语音交互的主要问题

评价一种语音交互体验的优缺点，主要是喊醒、理解和实现。这也是人与人之间交流的基本状态，目前车载语音交互的主要问题仍然集中在以下几个方面:

1. 唤起不及时(误唤起)

这个部分主要是受到车内环境的影响，或者唤醒词识别模糊不准确。

唤醒词尽量朗朗上口，符合中国人的口头用语，比如“你好小明”。记得绕口，因为绕口容易出错，“黑化肥会挥发”。；

“你好，牛奶”、“湖建号”等唤醒词可以防止方言的影响，而且唤醒词不能太短，比如“啊”；

如果按键触发语音交互，此时应降低车内音频通道的音量，减少环境音对唤起的影响；

在日常对话过程中，唤醒词尽量不要与常用词重叠，如“回家”、“丈夫”；