Agent和Agent成为大厂AI的新赛点。
未来入口处有2个支柱。
这是《广播Weekly》第52期。本期我们关注的商业趋势是,当大厂商的AI竞争策略开始向应用领域倾斜时,多模态能力和代理实施成为两大焦点。
C端场景大模型落地的关键,就是让大模型的能力越来越接近人。遵循这一主题,可以分为两个进化方向:一是不断降低用户与大模型有效沟通的难度;另一种是让大模型有能力执行更复杂的任务。前者的实现需要给大模型多模式的能力;后者需要依靠Agent产品生态的不断成熟。
在多模态方面,字节、百度、谷歌、OpenAI最近推出了基础大模型产品,具有很强的多模态能力,为相应的应用创新带来了可能性。阿里的AI to 本周推出了C商品夸克,以此为基础。「通义推理和多模式大模式大模式 后训练」实现的「拍照问夸克」功能。
在代理执行层面,Manus指出方向后,近期也推出了类似的通用Agent产品。包括字节的纽扣空间和百度的心跳App。、360的纳米AI、Genspark等,前百度高管。这类产品主要推广用户使用自然语言布置的一站式复杂任务。,并具备编写代码、连接第三方数据、工具的能力。
与国内相比,海外巨头更倾向于为单一场景打造Agent服务。Notion推出了AI驱动的电子邮件服务Notion Mail,协助用户组织电子邮件,拟定回复,搜索信息等。OpenAI之前推出的Operator和Deepeepi。 Research还专注于浏览器的操作和研究。X Grokk增加了AI。 Studio,用来帮助用户生成文档、代码、报告和游戏。
从目前可以体验的产品来看,多模态能力和代理执行能力的提高,确实给用户带来了门槛更低、效率更高的AI体验。如果微软CEO纳德拉称赞他的Copilot感受,他将具有执行力。通用Agent就是为顾客搭建一个脚手架,并在上面放置一个趁手的工具。,帮助顾客完成与日常工作、学习、生活相关的任务。
当这个产品成熟的时候,你会发现你的工作、学习和生活经历可能已经被它改变了。但是改变不是一个短期的过程。这些还处于初步探索阶段的产品,细节不尽如人意,需要一段时间的打磨,从客户意图理解、第三方工具调用、相应内容形成等方面全方位提升产品体验。
从这个阶段来看,模型能力的强弱还是很重要的。大模型能力的提升和成本的降低确实刺激了AI应用的爆发,人们再次看到了百度创始人李彦宏。「统治未来世界的应用」的可能。
然而,大模型技术仍在不断突破,现在我们看到的Agent的缺点,很多都需要依靠模型能力的提升来完善。。即使将来也有可能实现「模型即应用」,绘图有绘图模型,分析图表有分析图表模型。如今,OpenAI有向这一方向发展的趋势。
Agent的终局到底是什么,现在看来还没有定论。
01 多模式正渗透到现实场景中。
从最近的大模型发布来看,多模式是培养能力的重要方向。字节旗下火山引擎发布的豆包1.5深度思维模式,可以结合视觉理解能力完成图片分析地貌、项目流程图生成等工作。李彦宏正在介绍文心4.5 在Turbo中,通过识别马拉多纳「上帝之手」图片与水槽测试视频中不同颜色的物体,显示了图片和视频的理解能力。
另外,OpenAI最新发布的o3和o4-mini也有能力通过阅读图表和自己绘制图表来理解多模态。OpenAI表示,它首次实现了「用图像思考」。Geminiini是谷歌发布的第一个混合推理模型 2.5 Flash可以更准确地分析股票走势图,并且可以根据给定的素材图生成游戏场景设计图。
在不断提高多模式推理能力的同时,每个厂商都在为这种能力寻找第一个实验场。在推出AI非常框概念后,夸克最新推出了拍照问夸克功能,即在AI非常框中注入大模型多模态能力,让用户不仅可以通过文字完成与AI非常框的互动,还可以实现图文并茂的交流。
实际使用中,我们发现拍照问夸克功能基本能满足要求。「拍照搜索」感觉,比如拍一个梅瓶的展示,夸克可以回答梅瓶的起源,在宋代会用来装酒。用户也可以拍照,让夸克根据照片生成文案,或者识别食材的热量,识别景点,给出游戏策略。
通过添加图像,夸克可以让用户发送更精确的AI任务,然后调用夸克积累的Agent和原子功能,更好地完成任务。

事实上,这是为了让摄像机成为用户赋予AI的双眼,将来可能不仅要依靠拍照,还要通过摄像机直接进行实时交互。它也是谷歌试图实现的多模态交互体验。
Rajan在谷歌多模态搜索产品负责人 在Patel的想象中,多模态能力的融合,会使搜索变得毫不费力。顾客可以在谷歌打字、说话、拍照,告诉摄像头他们需要什么。谷歌将利用大模型和产品能力,帮助用户连接相关正确的信息。
因此,多模态能力的提高会影响AI眼镜的进度。一位AI硬件企业家告诉《窄播》,他之所以没有选择AI眼镜的方向,是因为多模态模型还不成熟,无法根据使用场景定义产品。但是面对未来,类似用户和拍照问夸克的互动可能会从手机转移到眼镜。
02 执行代理需要三种能力?
多模式提高了交流效率,Agent的重点在于执行。
2024年下半年,Agent具有任务执行能力和系统控制能力,已成为一门显学。但是当时有两个问题需要处理:一是Agent产品的形式应该是什么?另一个是如何将Agent与第三方数据和工具连接起来。
Manus的出现指出了前进的方向——通过对话框。 工作区的方式是呈现Agent的工作场景,然后调用不同的工具模块,根据大模型的能力理解和拆分客户的任务意图,共同实现目标。虽然可以称之为「缝合怪」,但是Manus的确让面向C端用户的通用Agent产品的雏形显露出来。
最近发布的纽扣空间,心响App、几乎所有纳米AI的Agent能力和Genspark都遵循这个原型模板。按钮空间分为三个部分,左边部分是任务目录,中间部分是任务交互区,右边可以有一个Agent的工作空间。同时,按钮空间还将支持两种深层次的思维不同模式:添加和扩展,以及选择探索和计划。

从使用的角度来看,纽扣空间更擅长文字梳理。但是当整理出来的文字转换成网页时,按钮空间的效果会降低。。我们试图生成一个腾冲旅游策略、一个网页和一个AI新闻总结,展示秦灭六国的过程。腾冲旅游策略的文字版应该更详细。转换成网页后,信息量会被稀释,食物的图片也会出现问题。最后两个任务不尽如人意。
百度心响App的特别之处在于选择在移动端上线,相对可以解决的问题就会出现。更加轻量化和生活化,在推荐任务时,不仅有游戏策略、数据分析等常见的Agent产品任务,还有类似聊天机器人的功能,如数学解题、AI相亲、常规任务等。总的来说,心响App是文小言的Agent进化版。
在我们看来,通用Agent目前需要不断培养三种关键能力来提升具体的任务感受。
首先,是否可以连接足够数量的第三方数据工具等。MCP(Model Context Protocol,A2A(Agent222)支持大模型和外部数据,工具集成开源协议Agent,智能体合作协议的引入,不仅使第三方数据和工具能够顺利接入通用Agent的统一界面,而且赋予了Agent和Agent之间的互动和合作能力。
当前,国内厂商几乎都接受了这一连接解决方案,下一步就是如何扩展有效的工具箱。
纳米AI的主要卖点是「MCP万能工具箱」,号称接入了近百个高质量的第三方工具。纽扣空间的扩展相对较少,有些只有简单的功能。以腾冲攻略为例。我可以在纽扣空间的墨迹天气扩展中加入天气预报攻击策略,但没有成功利用高德地图扩展生成日常景点路线图。在大多数尝试中,只显示了腾冲在地图上的位置。

编码是一般Agent需要培养的第二种能力。无论是ppt,AI编程都为Agent处理复杂任务提供了一个通用的有效工具。、网页,图表的生成,或者小游戏的创作,都需要依靠编码能力来执行。有消息显示,OpenAI正在讨论用30亿美元购买WindsurfenAI创业公司。,从而提高AI的编码能力。
三是最底层的,是对大型任务的理解能力。通用Agent只有具备更强的理解任务的能力,才能让更多的人依靠它来实现目标,并保证任务的完成水平。除了多模态能力之外,这也是大厂专注于提升的另一个大模型能力。当OpenAI推出o3和o4-mini时,它强调这是一个知道如何在网上查找信息并执行Python代码的人。「大脑」。
从目前的布局来看,OpenAI期待这一点。「大脑」Operator和Deep可以在未来准确调度。 不同职业地位的Agent,如Research,前者控制浏览器的司机,后者是负责研究的学者。未来可能会有Agent,比如擅长编程的程序员,擅长讲故事的作家。
字节的纽扣空间和百度的逻辑是开发Agent,就像开发API一样,需要建立一个平台来支持纽扣、秒搭等Agent或工作流。OpenAI的路径是根据职业培养Agent。这是另一种更拟人化的Agent生态培养模式,除了API逻辑。两种方法都是调用Agent生态来完成不同的任务。
当OpenAI给予投资者的期望时,AI 2025年底,Agent等新产品的总销售额将超过ChatGPT,达到30亿美元,到2029年,Agent业务将为其提供290亿美元的收益。它是一个非常乐观的预期。国内通用Agent也有可能从Agent体验升级中为C端用户奠定收费模式。
通用Agent可以将多模态能力与Agent的执行力结合起来,成为未来的底层入口,实现这一预期的前提。
本文来自微信微信官方账号“窄播”,作者:李威,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




