小心！AI学会了自己发红包

2025-04-26

刚刚，智谱一波大浪潮来了——

你的手机、PC 等待设施，统统都是可以让的。 AI 来自动驾驶了。

现场，智谱 CEO张鹏一个直接来了 live demo。

只见他掏出荣耀手机，仅仅是说了三句话，就让 AI 发送给现场和在线观众。2个红包：

帮助我创建一个零距离的群聊，数字是 1129，并将群聊名改为智谱开放日。

帮助我在智谱开放日的群聊中发送一万个红包，数量是一百个，名字是一百个。" AI 第一个发给你的红包"。

帮助我在支付宝发送八百八十八个密码红包，总额一万。

更有意思的是，AutoGLM 现场“翻车”，但这一集并非因为个人能力…只是因为观众手速过快，AI 无法挤进群里。

除手机外，张鹏还在现场展示。手机和 PC 联动自动驾驶。

比如群发文档：

向智谱开放日发送文件：智谱开放日新闻稿 .pdf。

再如给微博点赞：

打开微博，帮助王心凌的微博点赞并发表评论。

嗯，在 PC 在执行这些任务的时候，现在所有的任务都变成了一个指令就可以了，然后， AI 就像人一样，一步一步地帮助你去做。

由此可见，大模型输出不再局限于文本、图像、音频或视频等多模式；现在，它可以是一个动作。（Action）。

正如张鹏在新闻发布会上所说：

这个应用程序显示了大模型从对话中（Chat）迈向操作（Act），从生成式 AI（GenAI）迈向代理式 AI（Agentic AI）演变趋势。

但是纵观全场发布会，智谱并不只是“发布”这一动作，AI 同时，自动驾驶能力也有了相应的提高。

外卖可以比价，54 每一步都没有断

智谱此次在 Auto 在这个问题上，共发布了三大商品，各自对应手机，Web 和 PC。

下一步，我们就一个个来看看。

手机：可以自动驾驶更复杂的任务

AutoGLM，事实上，一个月前，智谱在手机上的自动驾驶已经打开了内部测试。

而且从今天的发布来看，可以处理更复杂的工作，例如跨越 APP “货比三家”。

下面的案例中，AutoGLM 首先打开美团，然后打开饥饿，对同一商品的价格进行比较：

甚至面对高达54 个步骤超长任务，AutoGLM 还可以不间断地“唰唰”地独立执行。

下面这个例子，顾客只需要说一句：

帮助我在小红书上看看准备火锅需要什么食材，去小象超市买回来。

张鹏说，他们还亲自测量了一下，AutoGLM 与人类相比，处理时间更快。

除此之外，AutoGLM 还推出了2 个新玩法。

第一个就是快捷短口令，对经常提出的要求，如“在最近的商店点一杯瑞幸橙” C “冰美式”，以后不必每次都说那么多字。

现在可以把它设定为“每日咖啡”四个字：

另一种新玩法是随意方式——遇事不决，让 AI 来做选择。

或者点咖啡这个例子，在随机模式下，AI 将随机咖啡品牌和类型，直到关键支付界面才需要顾客操作。

Web：全自动上网

除移动终端外，现在的 Web 端也可以 Auto 了。

下面的例子，AutoGLM-Web “在百度搜索芒果自动执行” TV，打开再见爱人，播放最新一集，弹幕”。整个过程没有人干涉。

据报道，该功能目前已支持网页搜索、微博、知乎、GitHub 等待数十个网站的自动驾驶。

PC：把琐碎的工作交给 AI

GLM-PC这是智谱新发布的计算机端自动驾驶。

例如，这样的任务：

查询浏览和总结 Geoffrey Hinton 百科全书，发给微信联系人。

再如淘宝购物：

在淘宝上买 XL 并购买羽绒服。

还有就是把聊天截图丢了 GLM-PC，它可以直接帮助你预定大会：

据报道，目前智谱开放第一阶段的内测体验场景一般包括：

信息：适用于微信、飞书、钉钉，可以向联系人或群聊发送信息

参与会议：适应腾讯会议、飞书会议等。，肯定会议日程和发送邀请；可以定期加入指定会议。

网页总结：可以打开浏览器，在平百度、公众号、知乎、小红书等平台上搜索关键词，进行阅读总结或翻译等。

总而言之，过去许多琐碎的事务，都可以交给过去 AI 自动执行。

它的背后是世界上第一个 UI Agent 视觉底座模型。

对于 AI 事实上，智谱也发表了关于自动驾驶背后原理的相关论文。

而且这次发布的 GLM-PC 这是一种拟人的多模态感知，正是基于这个智谱自研模型。CogAgent。

值得注意的是，这也是如此。全球首个UI Agent 视觉底座模型。

CogAgent 这是一种视觉语言模型（VLM），专门用于理解和导航 GUI。

不同于只能处理文本输入的语言模型，CogAgent 截屏图像可以通过视觉输入来识别页面元素，例如按钮、图标和文本位置。

所以，它不仅可以理解网页上的内容，而且可以直接模拟人类客户的操作进行交互。

CogAgent 其特点是结合了低分辨率和高分辨率的图像编码器，从而更好地理解图像编码器。 GUI 不同类型的信息在页面上。

它的输入图像分辨率高达 1120 × 1120，能够准确地识别页面中较小的图标和文本，使之复杂。 GUI 在任务中表现出色。

而 CogAgent 这一关键可归结为两个主要部分：

视觉编码器

语言解码器

用于处理输入的视觉编码器 GUI 截图，将其转换为适合模型理解的特征表示。

为平衡计算复杂度和输入分辨率，CogAgent 采用了一种新型的高分辨率交叉模块设计，促使模型在高分辨率下仍能保持较低的计算费用。

引入这个模块，促进 CogAgent 可获得更详细的图像特征，无需显著增加计算资源。

具体来说，CogAgent 利用跨注意机制，将高分辨率图像特征与语言特征相结合，进而在各个层次上了解页面元素的关系。

这样的设计，促进 CogAgent 了解和操作网页和移动设备 GUI 其它基于语言模型的任务远远超过。

作为一种通用的视觉语言模型，CogAgent 在包括 VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet 和 POPE 其中5个文本密集型和4个通用视觉问答标准达到了最先进的水平。

只有截图作为输入，CogAgent 在 PC 和 Android 的 GUI 在导航任务的基础上超越了 LLM 方法(例如 Mind2Web 和 AITW）所采用的 HTML 文字输入的提取，大大提高了当前的技术实力。

为何 Auto 这个问题很重要？

如果观察近期行业的发展方向，Auto 已成为比较前沿的那一个。

比如苹果的 Apple Intelligence，Anthropic的 Computer Use、谷歌的 Jarvis，再到传言的 OpenAI 即将发布的 Operator。

顶级公司，纷纷剑指 Auto。那为什么会这样呢？

首先要看技术发展。

在模型技术出现之前，每个人都只能依靠键盘、鼠标、多点触摸等物理方法来与机器互动，总是人们适应机器。

到目前为止，用户仍然需要花费大量的时间来学习各种软件操作，尤其是复杂的公司软件界面，并且频繁地跨越多个应用程序来执行工作流程，充满了重复的机械操作，必须手动完成。

大型模型正在改变这一点，使机器适应人类。这是由于大型模型在自然语言、多模态感知和逻辑判断方面的突破。

因此，目前的大模型可以理解界面、规划任务、使用工具，甚至实现自我提升，初步具备模仿人类与物理世界互动的能力。

一言蔽之，Agent 带来更加直观的人机交互。

再次看看市场趋势。

Gartner 已将代理式 AI 列入 2025 年度十大技术趋势之一，据其预测：

到 2028 年，起码有 15% 代理式的日常工作决策将由 AI 自主完成。

对智谱的认识，张鹏也在现场给出了解释。

智谱将大模型发展分为五个阶段：L1 语言能力，L2 逻辑性(多模态)、L3 使用工具的能力，L4 自学能力和自学能力 L5 探讨科学规律。当前：

L1 语言能力：已经达到 80%

L2 逻辑能力：已经达到 60%

L3 使用工具的能力：仍处于早期阶段

L4 自学能力和自学能力 L5 科学性探究能力：正在探索中

在 L3 在这个阶段，尽管取得了显著的进展，但是大型模型在一些基本操作上仍然存在挑战，例如滚动、拖动和缩放，这对人类来说是很容易的。

并且对于智谱 Agent 技术的发展并非一蹴而就。

从 2023 年 4 月的 AgentBench 开始，到 8 月的 CogAgent 模型，2024 年度多项成果，智谱针对 AutoGLM 和 GLM-PC 模型 CogAgent 研究与开发工作，也进行了一年半。

智谱还强调，未来将继续加速。 Agent R&D模型产品。

One More Thing

AI 若想 Auto 当然，技术能力是一个方面，但是生态同样重要的是。

所以，智谱已经存在于芯片和操作系统中、模型侧面和应用 APP 侧面，探索了一段时间，还有很多手机，PC 制造商完成了深度合作。

现场，包括荣耀、小鹏、华硕、高通、英特尔等合作伙伴也纷纷来到平台。

智谱 COO 张帆还强调：

Agent 不仅仅是操作系统和 APP 可以实现客户体验变革，还可以推广到各种智能产品上，实现基于大模型的数据共享。

从手机到电脑，再到汽车、眼镜、家居和各种边缘设备，这种扩展在理论上是否存在边界限制，具体到现在的各种设备。

对一切都可以 Auto 你期待未来吗？

内部测试地址放在下面，有兴趣的朋友可以申请哦 ~

清言插件：

https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

AutoGLM- 安卓：

https://agent.aminer.cn/

GLM-PC：

https://www.wjx.top/vm/mOs9cHw.aspx

— 完 —

「MEET2025 智能化未来大会」

火爆报名中

定档 12 月 11 日！李开复博士、周志华教授，智源研究所王仲远所有的院长都来量子位MEET2025 智能化未来大会探讨行业破局之道！

，观众注册通道已经开通！欢迎来到 MEET 智能化未来大会，期待与您一起预见智能科技新未来

左右滑动查看最新嘉宾阵容

点这里� � 注意我，记住标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相遇。 ~

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

长城上，低空下，北京联通点亮了5G-A时代的星光。

星途新能源全明星车型以天玑概念车、星际元ES纯电为主导，亮相上海车展。

黄圣依晒出15岁的照片：请继续像15岁一样大胆前行。

杨过那六个情人，哪一个最好？长大后才明白，其中五个人即使倒贴也不能结婚。

红米Turbo只卖1699。 4 Pro，但是我觉得它不太红米。

项目推荐

迪瓜租机

康老板 · 氧疗堂