谷歌暗增新功能,Gemini化身执行助手,科技巨头争相布局AI任务执行
一张截图提前揭示了今年谷歌I/O大会的重要动向:
Gemini不仅满足于聊天,更要成为Agent工作台。
近期,长期关注谷歌产品动态的TestingCatalog发现了Gemini上新增的「Agents」入口。

该入口与Gems、Files并列,位于一级导航栏,并非仅对开发者开放的隐藏选项。
这一变化传递出明确信号:
Gemini的下一阶段,将从「问答聊天框」升级为「任务执行工作台」,用户下达任务后AI可直接执行。
梳理谷歌近半年的产品动作,脉络清晰可见:
Agent Designer在Gemini Enterprise全面推出,NotebookLM新增音频生成与视频摘要功能,Agentspace整体并入Gemini Enterprise成为核心引擎,Chrome浏览器嵌入Gemini侧边栏并上线Auto Browse让AI代操作。
如今,Gemini聊天界面中出现了与Chat并列的「Agents」标签页,用户可直接新建任务、设定目标、挂载工具和文件,界面更像任务执行平台而非普通聊天窗口。
每一步都在推进同一目标:将Agent能力从开发者后台推向普通用户。
谷歌I/O大会尚未召开,其战略布局已显露雏形。
Chat不再是唯一核心
查看谷歌官方产品描述,风格已发生转变。
2024年2月Gemini for Google Workspace刚上线时,核心卖点是Chat功能。

通过与AI聊天完成写邮件、做会议纪要等任务,本质是嵌入Workspace的聊天助手。
现在谷歌官网对Gemini Enterprise的描述变为:「Gemini Enterprise让团队在安全平台上发现、创建、分享和运行AI Agent。」

聊天能力仍是Gemini Enterprise的核心之一,但已被纳入更大的Agent平台框架。

TestingCatalog曝光的Gemini Enterprise测试界面
根据TestingCatalog曝光的测试界面,Agent已进入主交互区:左侧可在Chat与Agent间切换,右侧整合目标、Agent、应用连接与文件面板。
新增的「智能体」标签页中,「新建任务」和「收件箱」是显眼入口。
启动新任务时,界面会扩展为功能丰富的任务工作区。
核心聊天视图保留,但右侧新增结构化任务面板。
该面板清晰定义任务要素,包括「目标」「智能体」「已连接的应用」和「文件」。
右侧边栏还设有「Require human review」(需要人工审核)开关,用户可添加人工审核节点,使界面更像任务执行工作区而非普通聊天窗口。
这意味着打开Gemini不再只是为了聊天,而是为了「运行任务」。
这也印证了Gemini Enterprise的定位已从「聊天助手」转变为「Agent运行平台」。
无需代码
也能创建Agent
产品层面的关键突破是Agent Designer,已于2025年底正式上线。

谷歌官方定义为:
一个交互式无代码/低代码平台,用于在Gemini Enterprise中创建、管理和发布单步及多步Agent。
其核心能力包括:
第一,多步骤Agent。
不仅支持「写邮件」等单次指令,还能编排多步任务,Agent可嵌套子Agent形成工作流。
第二,连接真实工具。
已上线Gmail、谷歌Drive、Jira、GitHub、Notion、SharePoint等连接器,Shopify等更多工具也进入公开预览阶段。
第三,定时执行。
Agent可按设定时间自动运行,无需人工值守。
此前,谷歌通过Agentspace(现已并入Gemini Enterprise)验证了该路线:将知识搜索与Agent执行整合到同一平台。
员工无需关注后台运行的Agent或数据源,在同一界面即可完成搜索、提问和任务执行。
泄露界面中的C端Agent标签页表明,这些能力不会仅局限于企业版。
谷歌很可能将其推向所有用户。
仅有智能还不够
还需执行能力
需明确一个易混淆的概念:
Agent不等于大模型。
大模型是Agent的「大脑」,负责理解任务、推理路径和生成决策。
但要完成实际任务,还需「手脚」——编排层,负责拆解步骤、调用工具、衔接上下文和处理执行异常。
谷歌此次重点完善的正是这层能力。
从公开资料看,Gemini Enterprise的Agent Designer是面向普通企业用户的可视化Agent工作台:无需代码,即可编排单步或多步任务。
相比之下,Vertex AI Agent Builder中的Agent Designer更偏向底层和开发者场景。
两者能力框架相似,但前者更易用、门槛更低。
简言之,谷歌并非单纯提升模型的聊天能力,而是将原本面向开发者的Agent构建能力,包装成普通用户也能上手的可视化工具。
对C端用户而言,这意味着无需懂API或Python,通过简单操作即可让AI完成工作流。
从「会聊天的AI」到「能干活的AI」,关键就在于这个编排层。
编排层竞争格局
放眼行业,谷歌并非唯一布局编排层的企业。
Anthropic和OpenAI选择了截然不同的路线,三家产品差异显著。
先看理念:
谷歌走平台化路线。
将Agent能力嵌入现有产品矩阵(Workspace、Search、NotebookLM、谷歌Cloud),依靠分发优势抢占市场。
逻辑清晰:20亿+用户的触达能力是护城河,Agent功能可直接集成到用户常用工具中。

Anthropic走工具化路线。
Claude Cowork运行在桌面端,可直接操作本地文件、文件夹和应用程序。
Anthropic官方产品页描述:
它能在不同应用间自由切换,整合多源信息,无需用户协调即可完成任务。

https://www.anthropic.com/product/claude-cowork?utm_source=chatgpt.com
不建平台,不搞生态,让模型本身成为Agent。
OpenAI则采取平台与生态并举的策略:
一方面通过GPTs和GPT Store扩大第三方供给与分发,另一方面在API侧从Assistants API迁移到Responses API,并以Agents SDK支持完整的Agent开发。
再看架构差异:
谷歌重视编排层。
Vertex AI Agent Builder提供完整框架,Agent Designer作为前端,企业级多Agent协作是核心卖点。
Anthropic轻编排重能力。
模型原生支持工具调用和环境交互,编排工作由开发者自行完成。Claude的思路是:与其提供框架,不如让模型足够强大,支持灵活编排。
OpenAI处于中间位置。
Assistants API提供编排抽象,但不如谷歌厚重;GPT Store负责分发,但生态活跃度存疑。
目标用户也完全不同:
谷歌瞄准企业IT部门和C端普通用户,门槛最低;Anthropic面向开发者和高级用户,上限最高;OpenAI试图覆盖开发者和C端用户。
值得注意的是,三家竞争焦点已从「模型智能度」转向「编排层易用性和生态丰富度」,这才是决定开发者选择的关键。
谁能率先让十亿人用上Agent
当前战场不在模型层。
谷歌CEO Sundar Pichai曾在官方博客中表示:谷歌的竞争力不仅在于单一模型版本,更在于完整的全栈能力——从研究、模型与工具,到触达数十亿用户的产品入口,再到全球云网络和数据中心体系。

当Agent从API走向GUI(图形用户界面),「人人可用」的临界点正在临近。
在这一临界点上,分发能力的重要性正迅速超过模型跑分。
Anthropic的优势在于更早推出「computer use」等原生Agent能力。
Claude已能通过截图、鼠标和键盘与桌面环境交互,Cowork明确强调其不是聊天助手,而是能在本地文件、文件夹和应用间切换、代用户执行多步知识工作的系统。
但Anthropic的短板也很明显:缺乏谷歌那样的消费级产品矩阵,Cowork目前仍处于research preview阶段,虽扩张迅速,但距离大规模默认分发还有差距。
距离谷歌I/O大会不到一个月,谷歌很可能进一步公开其Agent战略。
这更像是一场「分发对执行」的对赌。
谷歌的赌注是:当Agent能力接入Gemini、Workspace等产品入口,现成的分发网络将快速完成用户教育。
Anthropic的赌注是:当开发者和高级用户体验过能跨应用、操作桌面的Agent后,会优先为执行力买单。
Agent竞争的焦点正从「谁更会聊天」转向「谁更能完成任务」。
比拼的不仅是Agent的执行力,还有谁能最快、最大规模地将这种能力送达用户。
谷歌和Anthropic都在押注Agent,但追求的胜利方式不同。
参考资料:
https://www.testingcatalog.com/google-develops-its-own-desktop-agent-to-compete-with-cowork/
本文来自微信公众号“新智元”,作者:新智元,编辑:元宇,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com






