唇语识别专利加持,苹果或为头戴设备破局大众化
为推动Vision Pro的普及,苹果再推新举措。近期曝光的一项获批专利显示,其未来头戴设备将支持唇语识别技术,用户无需发声,仅通过唇部动作即可向设备下达指令。

在名为“带有语音输入结构的电子设备”的专利文件中,苹果描述了在佩戴者无法说话的场景下,设备可通过内置视觉传感器读取唇语实现语音输入。若该专利技术落地,将为当前头戴设备市场带来积极变革。
随着小米、阿里等企业相继入局,AI眼镜热潮已然兴起。然而,看似火热的市场背后,产品却面临严峻挑战。据VR Vision统计,抖音电商平台上AI眼镜的平均退货率高达40%-50%。用户将其列为“吃灰神器”的原因中,除佩戴负担重外,语音交互体验不佳是主要痛点之一。

智能音箱因使用场景集中于家庭,与语音交互适配度较高;但AI眼镜、XR头显的使用场景常涉及公共场合,语音交互的局限性便凸显出来。
尽管AI大模型技术推动了语义识别能力的提升,配合降噪引擎可精准捕捉佩戴者指令,但公共场合下,用户对着设备说话易产生羞耻感。且复杂环境中,即便降噪技术先进,仍需用户提高音量操控设备,这既违背公序良俗,也可能泄露隐私。
十年前马化腾曾提及,腾讯未重点发展语音助手,正是考虑到公共场合使用时的尴尬与隐私问题,多数用户宁可手动操作也不愿“对着空气说话”。

AI眼镜的拍摄功能本就存在隐私争议,语音交互又加重了用户在公共场合的心理负担。此外,音频信息量大但处理耗时,且听觉在上下文联想上不如视觉友好,导致语音交互更耗精力。
厂商并非不知语音交互的缺陷,只是当前它是性价比最高的方案。若要优化语音识别、远场拾音等技术以适应低声纹,成本会大幅上升,缩小受众范围;若降低成本,则社交压力问题难以解决。

语音交互前,智能眼镜的主要交互方式是镜腿触控,但频繁举手操作不符合人体工学,易产生疲劳。而TWS耳机触控可行,是因其交互场景频率较低。
在触控交互不适配、语音交互有缺陷的情况下,苹果的唇语识别技术提供了新方向。无声输入模式既解决了公共场合的社交压力,又保障了隐私。唇语识别技术已较为成熟,通过成熟AI视觉模型即可实现。

通过向AI模型输入不同语言的唇部动作数据并充分训练,设备可精准识别用户指令。若解决识别率问题,头戴设备在公共场合普及的最大障碍将被清除。

当用户能无顾虑使用头戴设备时,这类产品便有望从小众尝鲜品转变为大众化消费电子产品。
本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




