如何更好地进行智能驾驶舱-车载语音交互?

2024-08-02

从早期的踏板物理按钮到电子遥控,汽车的人机交互模式现在已经发展到语音、按钮、手势、视觉等多模式交互模式。其中,语音交互是目前智能联网汽车所必需的,本文对车载语音交互进行了初步整理。


第一,语音交互过程


虽然在日常用车过程中,通过唤醒词→发出指令→汽车机器反馈的过程已经习惯了语音交互,但整个语音交互过程并没有用户感知的那么简单。以客户的语音交互请求为例,展示汽车语音交互的整体链接和过程:


第一,顾客发起语音请求 (一般来说,语音唤醒或汽车按钮是通过语音唤醒词唤醒的,这里就不重复语音唤醒的过程了。)汽车麦克风拾音后,调用语音增强能力接口,增强音频回声消除、噪声抑制等语音处理,提高音频质量。


自动识别和转写语音增强后的音频,转写后的文本作为文本进行后处理,如标点符号的处理、敏感词的检测和大小写的整齐等。


文本识别整齐后,进行语义理解 (包括语义提取、前后文交互、信源搜索、对话管理等),给出语义理解的结果。


得到语义结果后,车机分析出相应的技能名称、意图和语义槽,然后根据相应的技能交互设计在交互中展示和控制。 (如 UI 展示天气查询的结果,TTS 播报天气查询记录,控制空调等。


具体流程示意图如下:


其中,语义理解(NLU)和语音合成(TTS)这里需要使用人工智能模型。 AI 可以采用能力调用的方式 2 方法:车端本地 AI 能力、云端 AI 能力。


车端当地 AI 能力的优势在于,客户的语音交互需求可以在没有网络或弱网络的前提下实现。但由于是本地化的部署方式,成本较高,后续的更新和维护只能使用。 OTA 升级方式;


云端 AI 能力的优点是性能和效果更好,调用成本低,维护升级比汽车更方便。但对汽车网络通信环境的稳定性有一定的要求,否则语音交互会出现问题,导致使用体验不佳。


第二,目前语音交互的核心应用领域


语音交互极大地解放了驾驶员的注意力,使得越来越多的操作变得简单方便。目前,驾驶舱内语音交互的核心应用领域如下:


地图导航


娱乐性信息(音乐、视频、照片、新闻等)


社交信息(电话、短信、微信等)


机器控制(空调、窗户、座椅等)


根据语音交互的主从关系,也分为被动语音交互和主动语音交互。目前大部分语音交互都是围绕被动语音交互在各种应用场景中的落地,而主动语音交互目前还没有深入挖掘场景。目前主要用于驾驶提示,如驾驶时没有系安全带。然而,随着被动语音交互的逐渐普及,语音交互的产品亮点逐渐扩展到主动语音交互,特别是借助人工智能和用户的驾驶大数据,如:


车辆油量和电量不足,车辆主动发出语音提示,并给附近的加油站和充电站导航,供用户检查;


车辆将进入隧道,车辆主动提醒是否设置为内循环模式,避免隧道内空气浑浊影响车内空气质量;


感知当前雾天,主动提醒打开雾灯,等待车主确认;


等等


第三,目前语音交互的主要问题


评价一种语音交互体验的优缺点,主要是喊醒、理解和实现。这也是人与人之间交流的基本状态,目前车载语音交互的主要问题仍然集中在以下几个方面:


1. 唤起不及时(误唤起)


这个部分主要是受到车内环境的影响,或者唤醒词识别模糊不准确。


唤醒词尽量朗朗上口,符合中国人的口头用语,比如“你好小明”。记得绕口,因为绕口容易出错,“黑化肥会挥发”。;


“你好,牛奶”、“湖建号”等唤醒词可以防止方言的影响,而且唤醒词不能太短,比如“啊”;


如果按键触发语音交互,此时应降低车内音频通道的音量,减少环境音对唤起的影响;


在日常对话过程中,唤醒词尽量不要与常用词重叠,如“回家”、“丈夫”;


2. 对内容的理解不准确


问问题,这里就不展开了。


3. 不知它能做些什么


认为自己能做到的话说不能做,认为自己做不到的话又做了。


这个黑盒子现在是语音交互最大的一个,因为不能一目了然地知道语音交互能做些什么,造成交互心理问题。


目前还没有看到这一块提供解决方案。一个好的语音助手是用户可以大胆地与之沟通,他们都可以得到积极的反馈。这一块可能需要一个大模型来猜测客户的意图,至少不能一直回答。


语音交互四、语音交互


在日常汽车中,可能不是单一的交互行为,而是多种交互技术的组合。对于语音交互,可以结合触摸形成语音。 触摸,提高交互操作的准确性:


语音 视觉:交互更加直观,便于任务判断。


语音 手势:驾驶操作更加简洁自然。


语音交互的方向是思考。


语音交互应该从被动语音交互转变为主动语音交互,甚至完全主动语音交互,客户可以检查。毕竟选择题比问答题更容易处理。


频繁在车内进行被动语音交互是一件奇怪的事情,尤其是车内不熟悉的人,每当发起语音交互时,车内的人总是保持沉默,相当尴尬,这让我想起了“小声点,影响了我的使用。 TNT 不过车内还是比较封闭的,有隐私感。至于运营车辆,我几乎没听说过语音交互。可能是司机和乘客不熟悉。偶尔说几句车的语音交互挺奇怪的。


到目前为止,我使用最多的语音交互是导航和听歌,因为两者都需要打字和查询,过程相对繁琐。在其他情况下,我只在新鲜阶段使用语音交互。


与其让用户发出指令进行互动,不如直接从汽车和机器开始大部分适应场景的互动。比如上车准备触发,问“今天的目的地在哪里?”毕竟这样更自然。


汽车根据驾驶员的驾驶数据和演讲内容,结合场景推送,形成面向用户的主动语音交互,是当前语音交互更值得探索的领域。


本文由 @芜湖小 fly 每个人都是原创产品经理。未经作者许可,禁止转载。


题图来自 Unsplash,基于 CC0 协议


这篇文章的观点只代表作者本人,每个人都是产品经理平台,只提供信息存储空间服务


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com