办公室语音交互兴起:AI助力下语音输入或成高效办公新选择

3分钟前

本文来自微信公众号:APPSO,作者:发现明日产品的,原文标题:《办公室里对着AI说话的人,可能会比用键盘打字的人更早下班》



今年,语音交互正逐渐成为解放双手的新方式。越来越多职场人选择对着屏幕口述内容,无论是写代码、拟方案还是与AI交流,语音输入都变得愈发便捷。



从「对话」到「操作」的跨越



3月3日,Anthropic向约5%的用户推送了Claude Code的语音模式。操作十分简单:在终端输入`/voice`,按住空格键说话,松手即可执行,转录token完全免费。





语音转文字技术早已存在,但Claude Code并非普通聊天应用——它是一款AI编程工具,今年2月年化收入已突破25亿美元,两个月内实现翻倍。



当以「写代码」为核心场景的产品开始支持语音输入,这传递出一个重要信号:语音不再只是「更方便」的选项,而是被视为重要的生产能力。



Bloomberg观察到这一现象,并采访了纽约销售平台Clay的教育负责人Yash Tekriwal。他表示,自己语音输入速度可达每分钟205词,而打字仅110到120词。更关键的是,口述的prompt质量更高。





打字时工程师可能只写「fix bug」,但说话时会自然提供更长、更具体的上下文描述。转录创业公司Wispr的CEO Tanay Kothari总结道:「打字时,你的prompt质量往往不高。」



200毫秒:技术突破的关键拐点



语音作为生产工具虽已出现许久,但直到现在才真正实用,背后是一个关键技术阈值的突破:端到端延迟降至200毫秒以内。



完整的语音AI链路包含三步——语音转文字(STT)、大语言模型处理(LLM)、文字转语音(TTS)。一年前,这条链路总延迟在500到800毫秒,用户能明显感到卡顿。今年3月的多项基准测试显示,该数字已压缩至200到250毫秒。典型代表如Deepgram Aura-2(TTS),首字节延迟90–200ms,支持7种语言。





200毫秒是什么概念?人类面对面交流时,对话轮换间隔的中位数约为200到300毫秒。这意味着AI语音交互的响应速度已达到人类对话的自然节奏,用户无需「等待」AI回应,交流可像与真人对话般流畅。



语音交互的「轮回」



语音曾是互联网的热门功能。



2011年微信上线,在与米聊、飞信的竞争中脱颖而出,语音消息是常被提及的差异化功能。在智能手机刚普及、多数用户不熟悉触屏打字的年代,按住说话、松手发送的交互方式几乎零门槛、易操作。



语音消息帮助微信打开市场,但辉煌并未持续。随着用户习惯成熟,语音消息逐渐变成「被忍受」多于「被喜爱」的功能:60秒语音条需慢慢收听、无法快速浏览、公共场合播放不便,还得调整音量。



微信也意识到这一问题,先后推出语音转文字、语音消息进度条拖拽、倍速播放等补救功能,本质上承认纯语音在信息密度和使用效率上,在很多场景不如文字。





语音的用户接受度一度跌入低谷,社交中发语音甚至被视为有压迫感、观感不佳的行为。



然而,AI的介入让语音价值结构发生根本变化。过去,语音消息的问题是:发送方省事,接收方却需花更多时间解码——信息负担从发送方转移到接收方。现在,AI充当中间层:对着AI说话,AI将语音转化为结构化的文字、代码或指令。语音「输入快」的优势得以保留,「输出乱」的劣势则被AI化解。



这也是Typeless等产品正在验证的逻辑。它们并非做「语音消息2.0」,而是让语音回归为输入方式——你说话,对方看到的是整理好的文字。语音不再是需「忍受」的沟通格式,而是经AI翻译的高效输入通道。



从微信语音消息到Wispr、Typeless、Claude Code语音模式,勾勒出完整弧线:语音第一次崛起靠低门槛,衰落因低效率,第二次崛起则是AI解决了效率问题。同一技术,运作方式已完全不同。



77亿美元市场背后的挑战



Grand View Research估算,今年AI语音生成市场规模约77亿美元,到2030年将达218亿美元。但数字背后隐藏着更有趣的问题:技术已就绪,人是否准备好?



Clay的Tekriwal坦言,最初在开放办公区对着电脑说话时,同事反应困惑:「这是在跟人说话,还是自言自语?」尽管团队后来都转向语音输入,但「尴尬期」说明,语音作为工作界面的最大阻力并非技术,而是社会规范。



多伦多投资管理平台Boosted.ai的经验更具代表性。该公司去年在平台中加入语音功能,推出名为Alfa的AI语音助手,可朗读投资报告并接受语音指令。多数机构客户试过让AI朗读报告,但主动对AI说话的人少得多。



Wispr的Kothari估计,用户从键盘切换到语音约需两到三周适应期。他说:「需要改变的是社会观念——对着电脑说话不代表你是疯子。」



语音AI的故事表面是交互方式升级——从打字到说话,从键盘到麦克风。但更准确地说,这是一次轮回:语音从不缺「自然」的优势,缺的是足够聪明的中间层,以弥合「说」与「被理解」的鸿沟。2026年,这个中间层首次真正就位。



接下来的问题不再是「语音能不能用」,而是:当说话比打字更高效时,我们的工作方式、协作习惯乃至思考节奏,会被如何改写?


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com