多模态AI浪潮下,超能小度重塑智能硬件新格局

2025-11-18

推动“AI助手”向“AI伙伴”的华丽进阶。

2025年成为了AI硬件真正意义上的元年。

在2024年GPT - 4o与Gemini 1.5实现技术升级后,多模态大模型有了从理论研究迈向应用落地的可能。AI不再局限于文本生成或语音问答,还能看懂画面、感知环境、主动响应。这使得AI硬件不再只是极客群体的“玩具”,而是真正走进了大多数人的生活。于是,这一年AI硬件频繁登上舞台。

从录音笔、摄像机、音箱,到眼镜、戒指、项链,每一件硬件都在被重新定义。有人追求即时记录的效率,有人探索更拟人、更沉浸的交互,也有人看重情绪与语义的连接。无论形态怎样,这些都是AI无限贴近人类的尝试。

背后更深远的思考是:AI应以何种形态融入物理世界?

就在此时,11月13日,小度在世界大会智能硬件分论坛上推出了全新多模态AI智能助手——超能小度。和多数AI硬件创业公司押注单一场景不同,小度选择全面重塑,对其全系、全量、全生态产品进行了一轮升级。

搭载了超能小度的硬件新品——小度AI眼镜Pro、小度智能摄像机C1200三摄版和C800视频通话版、小度智能音箱Fun等也在论坛一同亮相。

小度想要抢占的是AI与现实世界的交界。“小度从诞生起,就一直追求人机交互的革命。而超能小度正是这一使命的全新载体。”小度科技CEO李莹在现场表示。

01

从助手到伙伴,小度的超能进化

若只把AI当作硬件的附加价值,无论硬件形态和软件功能如何变化,本质只是技术的堆叠;只有当AI成为驱动硬件交互变革的原生推动力,甚至重新定义硬件,才可能推动“下一代人机关系”的到来。

当全球硬件厂商大多在比拼“如何把AI助手更好地植入设备”时,小度聚焦AI助手本身在“感知、学习、记忆”的能力进化,并以此推动硬件产品创新。

超能小度的发布,就是这一逻辑的极致体现。

在原有的语音交互能力基础上,作为多模态AI智能助手,它还具备处理图像、视频等视觉信息的能力,甚至能结合对周边环境信息的感知,进行复杂的推理与规划。

发布会现场的“智能寻物”案例令人印象深刻:当你对着摄像机问“我把遥控器放哪儿了”,超能小度会先扫描当前屋内实时画面;若没找到,还会自动回溯过去24小时甚至更长时间的历史画面,定位遥控器最后出现的时间和位置,并展示当时的视频记录。

这虽解决了“找不到遥控器”的日常难题,但其背后意义不止于此。

从技术层面看,这意味着AI不仅要能“看见”和“看清”物体,更要能“看懂”空间和时序关系,构建对真实世界多维、动态的映射——这也是大模型目前面临的主要挑战之一。

小度将此次超能小度的升级总结为三大进化:

1.从单点响应到全局理解:不再局限于单次指令执行,能进行上下文深度理解,结合时间、空间、人物、行为等综合判断,实现更全面、多维的感知决策。

2.从被动智能到主动智能:不同于过去“你呼我应”“你问我答”的交互模式,能主动理解、分析甚至预判用户需求,并提供解决方案。

3.个性化记忆强化:不仅能记住习惯和偏好,还能洞察语气与情绪,察言观色、想你所想、懂你所需,让人机关系从“工具”迈向“伙伴”。

现场李莹宣布,超能小度全系、全量、全生态上线,除覆盖小度AI眼镜、小度智能摄像机、小度智能音箱Fun等新品外,数千万台已售设备也可免费升级,实现更自然、深度和贴心的人机交互体验,让“AI助手”向“AI伙伴”跨越进阶。

02

当AI伙伴走进物理世界

发布会上,全面搭载超能小度的多款硬件新品成为焦点。

以小度AI眼镜为例,它搭载高通骁龙AR1芯片,配备索尼1200万像素109°超广角镜头,支持4K照片和1440p视频拍摄,内置EIS智能防抖;采用开放式防漏音双扬声器和五麦克风阵列协同收声设计,结合逆声场定向声学系统、自研ENC通话降噪算法等,可降低通话、听歌和语音交互场景下的噪音干扰。

续航方面,综合模式下单次连续使用时长约7.5小时,搭配智能充电盒可达约68小时,确保日常使用无忧。

外观和佩戴体验上,小度AI眼镜Pro机身仅重39克。现场展示有波士顿、猫眼两款框型,还有墨镜和光致变色镜片可供选择,配备可调节的软硅胶材质鼻托,在时尚感、使用场景和脸型适配等方面都有优化。

当然,AI眼镜市场竞争激烈,既拼“硬功夫”,也拼“软实力”。

作为国内较早布局该领域的厂商之一,小度通过升级多模态智能,在AI眼镜的实际功能体验上,展现出软硬结合“1 + 1>2”的效果。

比如,当你不方便掏手机又需记录停车位或小区物业通知时,跟小度说“帮我记一下”,眼镜会自动拍照、解析并生成备忘,你可随时询问“我的车停哪了”“明天几点会停水”,甚至一键拨打物业电话,实现“随看随记,随问随得”。

在办公场景中,AI的作用进一步放大:眼镜的“AI会议纪要”功能,在录音转写、内容总结基础上,可拍照记录重要板书、PPT等会议资料,自动匹配至纪要对应位置,还支持洞察发言人意图、分析潜在争议点等,并生成多种优化建议。

据悉,该功能将在今年12月正式上线。

此外,小度与网易云音乐联合打造的“氛围歌单”功能,让AI有了更柔性的表达。当你说“给我来首应景的歌”,眼镜会根据眼前画面生成专属BGM,无论是黄昏街头的光影还是山顶俯瞰的风景,都能被AI捕捉并谱写成情绪的旋律。

类似场景很多,通过眼镜这个随身载体,超能小度融入了我们的日常生活。

李莹提到,如果说AI眼镜作为我们感官的延伸,实现了“第一视角智能”,智能摄像机对周边环境的感知理解,则将开启“上帝视角智能”。

此次小度推出两款智能摄像机:

一款是带屏幕的视频通话版本,适合有老人和孩子的家庭,支持便捷、流畅的双向微信视频通话;最新发布的搭载三个摄像头的小度智能摄像机C1200,通过云台长 + 短焦镜头和固定超广角镜头的组合设计,可双画面联动,更好地追踪移动目标,10倍光学混合变焦能实现高清细节捕捉,更适合有宠人群。

同样基于超能小度的多模态能力加持,小度智能摄像机打造了“AI随心看护”功能,能识别人、宠等特定对象的具体行为,在理解画面语义的基础上主动干预——比如孩子学习姿势异常时主动语音提醒,宠物拆家时出动扫地机器人威慑等。

可见,如今Chatbot式的一问一答,难以满足人们对更高层次智能应用的想象。

让无形的智能走进真实生活,理解我们当下经历的事情,主动提供帮助和陪伴,或许才是更值得期待的AI形态。

03

多模态不是终点

从十年前的Siri到智能音箱时代的小度,人们一直用对话打开智能入口——语音交互几乎是所有智能硬件的标配,带来便利却难以成为刚需。

近两年来,随着多模态技术快速发展,大模型竞争焦点迅速转移:OpenAI GPT - 4o首次用一个模型实现文本、图像、音频、视频的实时多模态理解和生成;Google基于Gemini的Project Astra智能体,可通过摄像头和麦克风观察并理解周围环境,具备超长上下文记忆能力;Meta在与Ray - Ban合作的智能眼镜中,也在探索加入更多多模态AI应用。

在这个行业背景下,小度此次“超能”进化选择了一条更漫长但能给用户带来长期价值的路径:从语音、视觉到情绪,从理解指令到理解人,真正重新定义“AI助手”。

正如李莹所说,“AI是赋予智能硬件灵魂、开启全新想象空间的核心所在”——从智能音箱、智能屏、闺蜜机、健身镜、学习机到如今的AI眼镜、智能摄像机,小度每次产品演进都指向同一目标。

如果设备只是“被放在那里”,无法被真正使用,AI的价值就无法体现。反之,若AI能通过硬件和使用者形成交互与陪伴,那才是人与科技共生的起点。

市场趋势也印证了这种思路:Global Market Insights报告指出,2024年全球AI硬件市场规模约59亿美元,预计2025年增长至668亿美元,到2034年将达约2963亿美元,年复合增长率约18%;Coherent Market Insights报告中,“On - Device AI”市场(即可穿戴终端设备上运行AI的部分)在2025年估算为266.1亿美元,预计到2032年将扩展至1240.7亿美元,年复合增长率约24.6%。

面对行业的快速增长,小度通过发布全新多模态AI助手和对新老设备的普惠升级,明确了“以AI为核心、以硬件为载体”的战略定位。

根据官方数据,目前小度自有品牌产品渗透率已达5400万户,且还在增长。同时,超能小度将以智能引擎方式开放,让酒店、养老等更多行业伙伴实现能力升级,成为各类厂商可调用的AI能力底座。“希望大家一起为用户创造更智能、便捷、人性化的体验。”李莹说道。

站在2025年回望,从熟知的语音助手到如今的多模态AI助手,超能小度的进化,不仅是技术的迭代升级,更在重塑人、机器与世界的连接。

当语言、图像、声音的壁垒被打破——机器从被动工具蜕变为能听、能看、能说、能思的数字伙伴,这场关乎人机交互未来形态的革命才刚刚开始。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com