多模态AI浪潮下，超能小度重塑智能硬件新格局

2025-11-18

推动“AI助手”向“AI伙伴”的华丽进阶。

2025年成为了AI硬件真正意义上的元年。

在2024年GPT - 4o与Gemini 1.5实现技术升级后，多模态大模型有了从理论研究迈向应用落地的可能。AI不再局限于文本生成或语音问答，还能看懂画面、感知环境、主动响应。这使得AI硬件不再只是极客群体的“玩具”，而是真正走进了大多数人的生活。于是，这一年AI硬件频繁登上舞台。

从录音笔、摄像机、音箱，到眼镜、戒指、项链，每一件硬件都在被重新定义。有人追求即时记录的效率，有人探索更拟人、更沉浸的交互，也有人看重情绪与语义的连接。无论形态怎样，这些都是AI无限贴近人类的尝试。

背后更深远的思考是：AI应以何种形态融入物理世界？

就在此时，11月13日，小度在世界大会智能硬件分论坛上推出了全新多模态AI智能助手——超能小度。和多数AI硬件创业公司押注单一场景不同，小度选择全面重塑，对其全系、全量、全生态产品进行了一轮升级。

搭载了超能小度的硬件新品——小度AI眼镜Pro、小度智能摄像机C1200三摄版和C800视频通话版、小度智能音箱Fun等也在论坛一同亮相。

小度想要抢占的是AI与现实世界的交界。“小度从诞生起，就一直追求人机交互的革命。而超能小度正是这一使命的全新载体。”小度科技CEO李莹在现场表示。

01 从助手到伙伴，小度的超能进化

若只把AI当作硬件的附加价值，无论硬件形态和软件功能如何变化，本质只是技术的堆叠；只有当AI成为驱动硬件交互变革的原生推动力，甚至重新定义硬件，才可能推动“下一代人机关系”的到来。

当全球硬件厂商大多在比拼“如何把AI助手更好地植入设备”时，小度聚焦AI助手本身在“感知、学习、记忆”的能力进化，并以此推动硬件产品创新。

超能小度的发布，就是这一逻辑的极致体现。

在原有的语音交互能力基础上，作为多模态AI智能助手，它还具备处理图像、视频等视觉信息的能力，甚至能结合对周边环境信息的感知，进行复杂的推理与规划。

发布会现场的“智能寻物”案例令人印象深刻：当你对着摄像机问“我把遥控器放哪儿了”，超能小度会先扫描当前屋内实时画面；若没找到，还会自动回溯过去24小时甚至更长时间的历史画面，定位遥控器最后出现的时间和位置，并展示当时的视频记录。

这虽解决了“找不到遥控器”的日常难题，但其背后意义不止于此。

从技术层面看，这意味着AI不仅要能“看见”和“看清”物体，更要能“看懂”空间和时序关系，构建对真实世界多维、动态的映射——这也是大模型目前面临的主要挑战之一。

小度将此次超能小度的升级总结为三大进化：

1.从单点响应到全局理解：不再局限于单次指令执行，能进行上下文深度理解，结合时间、空间、人物、行为等综合判断，实现更全面、多维的感知决策。

2.从被动智能到主动智能：不同于过去“你呼我应”“你问我答”的交互模式，能主动理解、分析甚至预判用户需求，并提供解决方案。

3.个性化记忆强化：不仅能记住习惯和偏好，还能洞察语气与情绪，察言观色、想你所想、懂你所需，让人机关系从“工具”迈向“伙伴”。

现场李莹宣布，超能小度全系、全量、全生态上线，除覆盖小度AI眼镜、小度智能摄像机、小度智能音箱Fun等新品外，数千万台已售设备也可免费升级，实现更自然、深度和贴心的人机交互体验，让“AI助手”向“AI伙伴”跨越进阶。

02 当AI伙伴走进物理世界

发布会上，全面搭载超能小度的多款硬件新品成为焦点。

以小度AI眼镜为例，它搭载高通骁龙AR1芯片，配备索尼1200万像素109°超广角镜头，支持4K照片和1440p视频拍摄，内置EIS智能防抖；采用开放式防漏音双扬声器和五麦克风阵列协同收声设计，结合逆声场定向声学系统、自研ENC通话降噪算法等，可降低通话、听歌和语音交互场景下的噪音干扰。

续航方面，综合模式下单次连续使用时长约7.5小时，搭配智能充电盒可达约68小时，确保日常使用无忧。

外观和佩戴体验上，小度AI眼镜Pro机身仅重39克。现场展示有波士顿、猫眼两款框型，还有墨镜和光致变色镜片可供选择，配备可调节的软硅胶材质鼻托，在时尚感、使用场景和脸型适配等方面都有优化。

当然，AI眼镜市场竞争激烈，既拼“硬功夫”，也拼“软实力”。

作为国内较早布局该领域的厂商之一，小度通过升级多模态智能，在AI眼镜的实际功能体验上，展现出软硬结合“1 + 1＞2”的效果。

比如，当你不方便掏手机又需记录停车位或小区物业通知时，跟小度说“帮我记一下”，眼镜会自动拍照、解析并生成备忘，你可随时询问“我的车停哪了”“明天几点会停水”，甚至一键拨打物业电话，实现“随看随记，随问随得”。

在办公场景中，AI的作用进一步放大：眼镜的“AI会议纪要”功能，在录音转写、内容总结基础上，可拍照记录重要板书、PPT等会议资料，自动匹配至纪要对应位置，还支持洞察发言人意图、分析潜在争议点等，并生成多种优化建议。

据悉，该功能将在今年12月正式上线。

此外，小度与网易云音乐联合打造的“氛围歌单”功能，让AI有了更柔性的表达。当你说“给我来首应景的歌”，眼镜会根据眼前画面生成专属BGM，无论是黄昏街头的光影还是山顶俯瞰的风景，都能被AI捕捉并谱写成情绪的旋律。

类似场景很多，通过眼镜这个随身载体，超能小度融入了我们的日常生活。

李莹提到，如果说AI眼镜作为我们感官的延伸，实现了“第一视角智能”，智能摄像机对周边环境的感知理解，则将开启“上帝视角智能”。

此次小度推出两款智能摄像机：

一款是带屏幕的视频通话版本，适合有老人和孩子的家庭，支持便捷、流畅的双向微信视频通话；最新发布的搭载三个摄像头的小度智能摄像机C1200，通过云台长 + 短焦镜头和固定超广角镜头的组合设计，可双画面联动，更好地追踪移动目标，10倍光学混合变焦能实现高清细节捕捉，更适合有宠人群。

同样基于超能小度的多模态能力加持，小度智能摄像机打造了“AI随心看护”功能，能识别人、宠等特定对象的具体行为，在理解画面语义的基础上主动干预——比如孩子学习姿势异常时主动语音提醒，宠物拆家时出动扫地机器人威慑等。

可见，如今Chatbot式的一问一答，难以满足人们对更高层次智能应用的想象。

让无形的智能走进真实生活，理解我们当下经历的事情，主动提供帮助和陪伴，或许才是更值得期待的AI形态。

03 多模态不是终点

从十年前的Siri到智能音箱时代的小度，人们一直用对话打开智能入口——语音交互几乎是所有智能硬件的标配，带来便利却难以成为刚需。

近两年来，随着多模态技术快速发展，大模型竞争焦点迅速转移：OpenAI GPT - 4o首次用一个模型实现文本、图像、音频、视频的实时多模态理解和生成；Google基于Gemini的Project Astra智能体，可通过摄像头和麦克风观察并理解周围环境，具备超长上下文记忆能力；Meta在与Ray - Ban合作的智能眼镜中，也在探索加入更多多模态AI应用。

在这个行业背景下，小度此次“超能”进化选择了一条更漫长但能给用户带来长期价值的路径：从语音、视觉到情绪，从理解指令到理解人，真正重新定义“AI助手”。

正如李莹所说，“AI是赋予智能硬件灵魂、开启全新想象空间的核心所在”——从智能音箱、智能屏、闺蜜机、健身镜、学习机到如今的AI眼镜、智能摄像机，小度每次产品演进都指向同一目标。

如果设备只是“被放在那里”，无法被真正使用，AI的价值就无法体现。反之，若AI能通过硬件和使用者形成交互与陪伴，那才是人与科技共生的起点。

市场趋势也印证了这种思路：Global Market Insights报告指出，2024年全球AI硬件市场规模约59亿美元，预计2025年增长至668亿美元，到2034年将达约2963亿美元，年复合增长率约18%；Coherent Market Insights报告中，“On - Device AI”市场（即可穿戴终端设备上运行AI的部分）在2025年估算为266.1亿美元，预计到2032年将扩展至1240.7亿美元，年复合增长率约24.6%。

面对行业的快速增长，小度通过发布全新多模态AI助手和对新老设备的普惠升级，明确了“以AI为核心、以硬件为载体”的战略定位。

根据官方数据，目前小度自有品牌产品渗透率已达5400万户，且还在增长。同时，超能小度将以智能引擎方式开放，让酒店、养老等更多行业伙伴实现能力升级，成为各类厂商可调用的AI能力底座。“希望大家一起为用户创造更智能、便捷、人性化的体验。”李莹说道。

站在2025年回望，从熟知的语音助手到如今的多模态AI助手，超能小度的进化，不仅是技术的迭代升级，更在重塑人、机器与世界的连接。

当语言、图像、声音的壁垒被打破——机器从被动工具蜕变为能听、能看、能说、能思的数字伙伴，这场关乎人机交互未来形态的革命才刚刚开始。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

为赢千元奖励倒贴钱，00后被记账软件“套牢”

短剧演员成电商带货新势力，开启融合新篇

人工智能版权“退出机制”：难以兑现的空头承诺

霸王茶姬8周年：伯牙绝弦·花香款登场，百万茶券邀全国茶友共品

最新顶刊论文：刷新对短视频成瘾的认知

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂