唇语识别专利加持，苹果或为头戴设备破局大众化

2025-12-02

当用户能无顾虑使用时，头戴设备便有望从小众走向大众。

为推动Vision Pro的普及，苹果再推新举措。近期曝光的一项获批专利显示，其未来头戴设备将支持唇语识别技术，用户无需发声，仅通过唇部动作即可向设备下达指令。

在名为“带有语音输入结构的电子设备”的专利文件中，苹果描述了在佩戴者无法说话的场景下，设备可通过内置视觉传感器读取唇语实现语音输入。若该专利技术落地，将为当前头戴设备市场带来积极变革。

随着小米、阿里等企业相继入局，AI眼镜热潮已然兴起。然而，看似火热的市场背后，产品却面临严峻挑战。据VR Vision统计，抖音电商平台上AI眼镜的平均退货率高达40%-50%。用户将其列为“吃灰神器”的原因中，除佩戴负担重外，语音交互体验不佳是主要痛点之一。

智能音箱因使用场景集中于家庭，与语音交互适配度较高；但AI眼镜、XR头显的使用场景常涉及公共场合，语音交互的局限性便凸显出来。

尽管AI大模型技术推动了语义识别能力的提升，配合降噪引擎可精准捕捉佩戴者指令，但公共场合下，用户对着设备说话易产生羞耻感。且复杂环境中，即便降噪技术先进，仍需用户提高音量操控设备，这既违背公序良俗，也可能泄露隐私。

十年前马化腾曾提及，腾讯未重点发展语音助手，正是考虑到公共场合使用时的尴尬与隐私问题，多数用户宁可手动操作也不愿“对着空气说话”。

AI眼镜的拍摄功能本就存在隐私争议，语音交互又加重了用户在公共场合的心理负担。此外，音频信息量大但处理耗时，且听觉在上下文联想上不如视觉友好，导致语音交互更耗精力。

厂商并非不知语音交互的缺陷，只是当前它是性价比最高的方案。若要优化语音识别、远场拾音等技术以适应低声纹，成本会大幅上升，缩小受众范围；若降低成本，则社交压力问题难以解决。

语音交互前，智能眼镜的主要交互方式是镜腿触控，但频繁举手操作不符合人体工学，易产生疲劳。而TWS耳机触控可行，是因其交互场景频率较低。

在触控交互不适配、语音交互有缺陷的情况下，苹果的唇语识别技术提供了新方向。无声输入模式既解决了公共场合的社交压力，又保障了隐私。唇语识别技术已较为成熟，通过成熟AI视觉模型即可实现。

通过向AI模型输入不同语言的唇部动作数据并充分训练，设备可精准识别用户指令。若解决识别率问题，头戴设备在公共场合普及的最大障碍将被清除。

当用户能无顾虑使用头戴设备时，这类产品便有望从小众尝鲜品转变为大众化消费电子产品。

本文来自微信公众号“三易生活”（ID：IT-3eLife），作者：三易菌，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com