小心!AI学会了自己发红包
刚刚,智谱一波大浪潮来了——
你的手机、PC 等待设施,统统都是可以让的。 AI 来自动驾驶了。
现场,智谱 CEO张鹏一个直接来了 live demo。
只见他掏出荣耀手机,仅仅是说了三句话,就让 AI 发送给现场和在线观众。2个红包:
帮助我创建一个零距离的群聊,数字是 1129,并将群聊名改为智谱开放日。
帮助我在智谱开放日的群聊中发送一万个红包,数量是一百个,名字是一百个。" AI 第一个发给你的红包"。
帮助我在支付宝发送八百八十八个密码红包,总额一万。
更有意思的是,AutoGLM 现场“翻车”,但这一集并非因为个人能力…只是因为观众手速过快,AI 无法挤进群里。
除手机外,张鹏还在现场展示。手机和 PC 联动自动驾驶。
比如群发文档:
向智谱开放日发送文件:智谱开放日新闻稿 .pdf。
再如给微博点赞:
打开微博,帮助王心凌的微博点赞并发表评论。
嗯,在 PC 在执行这些任务的时候,现在所有的任务都变成了一个指令就可以了,然后, AI 就像人一样,一步一步地帮助你去做。
由此可见,大模型输出不再局限于文本、图像、音频或视频等多模式;现在,它可以是一个动作。(Action)。
正如张鹏在新闻发布会上所说:
这个应用程序显示了大模型从对话中(Chat)迈向操作(Act),从生成式 AI(GenAI)迈向代理式 AI(Agentic AI)演变趋势。
但是纵观全场发布会,智谱并不只是“发布”这一动作,AI 同时,自动驾驶能力也有了相应的提高。
外卖可以比价,54 每一步都没有断
智谱此次在 Auto 在这个问题上,共发布了三大商品,各自对应手机,Web 和 PC。
下一步,我们就一个个来看看。
手机:可以自动驾驶更复杂的任务
AutoGLM,事实上,一个月前,智谱在手机上的自动驾驶已经打开了内部测试。
而且从今天的发布来看,可以处理更复杂的工作,例如跨越 APP “货比三家”。
下面的案例中,AutoGLM 首先打开美团,然后打开饥饿,对同一商品的价格进行比较:
甚至面对高达54 个步骤超长任务,AutoGLM 还可以不间断地“唰唰”地独立执行。
下面这个例子,顾客只需要说一句:
帮助我在小红书上看看准备火锅需要什么食材,去小象超市买回来。
张鹏说,他们还亲自测量了一下,AutoGLM 与人类相比,处理时间更快。
除此之外,AutoGLM 还推出了2 个新玩法。
第一个就是快捷短口令,对经常提出的要求,如“在最近的商店点一杯瑞幸橙” C “冰美式”,以后不必每次都说那么多字。
现在可以把它设定为“每日咖啡”四个字:
另一种新玩法是随意方式——遇事不决,让 AI 来做选择。
或者点咖啡这个例子,在随机模式下,AI 将随机咖啡品牌和类型,直到关键支付界面才需要顾客操作。
Web:全自动上网
除移动终端外,现在的 Web 端也可以 Auto 了。
下面的例子,AutoGLM-Web “在百度搜索芒果自动执行” TV,打开再见爱人,播放最新一集,弹幕”。整个过程没有人干涉。
据报道,该功能目前已支持网页搜索、微博、知乎、GitHub 等待数十个网站的自动驾驶。
PC:把琐碎的工作交给 AI
GLM-PC这是智谱新发布的计算机端自动驾驶。
例如,这样的任务:
查询浏览和总结 Geoffrey Hinton 百科全书,发给微信联系人。
再如淘宝购物:
在淘宝上买 XL 并购买羽绒服。
还有就是把聊天截图丢了 GLM-PC,它可以直接帮助你预定大会:
据报道,目前智谱开放第一阶段的内测体验场景一般包括:
信息:适用于微信、飞书、钉钉,可以向联系人或群聊发送信息
参与会议:适应腾讯会议、飞书会议等。,肯定会议日程和发送邀请;可以定期加入指定会议。
网页总结:可以打开浏览器,在平百度、公众号、知乎、小红书等平台上搜索关键词,进行阅读总结或翻译等。
总而言之,过去许多琐碎的事务,都可以交给过去 AI 自动执行。
它的背后是世界上第一个 UI Agent 视觉底座模型。
对于 AI 事实上,智谱也发表了关于自动驾驶背后原理的相关论文。
而且这次发布的 GLM-PC 这是一种拟人的多模态感知,正是基于这个智谱自研模型。CogAgent。
值得注意的是,这也是如此。全球首个UI Agent 视觉底座模型。
CogAgent 这是一种视觉语言模型(VLM),专门用于理解和导航 GUI。
不同于只能处理文本输入的语言模型,CogAgent 截屏图像可以通过视觉输入来识别页面元素,例如按钮、图标和文本位置。
所以,它不仅可以理解网页上的内容,而且可以直接模拟人类客户的操作进行交互。
CogAgent 其特点是结合了低分辨率和高分辨率的图像编码器,从而更好地理解图像编码器。 GUI 不同类型的信息在页面上。
它的输入图像分辨率高达 1120 × 1120,能够准确地识别页面中较小的图标和文本,使之复杂。 GUI 在任务中表现出色。
而 CogAgent 这一关键可归结为两个主要部分:
视觉编码器
语言解码器
用于处理输入的视觉编码器 GUI 截图,将其转换为适合模型理解的特征表示。
为平衡计算复杂度和输入分辨率,CogAgent 采用了一种新型的高分辨率交叉模块设计,促使模型在高分辨率下仍能保持较低的计算费用。
引入这个模块,促进 CogAgent 可获得更详细的图像特征,无需显著增加计算资源。
具体来说,CogAgent 利用跨注意机制,将高分辨率图像特征与语言特征相结合,进而在各个层次上了解页面元素的关系。
这样的设计,促进 CogAgent 了解和操作网页和移动设备 GUI 其它基于语言模型的任务远远超过。
作为一种通用的视觉语言模型,CogAgent 在包括 VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet 和 POPE 其中5个文本密集型和4个通用视觉问答标准达到了最先进的水平。
只有截图作为输入,CogAgent 在 PC 和 Android 的 GUI 在导航任务的基础上超越了 LLM 方法(例如 Mind2Web 和 AITW)所采用的 HTML 文字输入的提取,大大提高了当前的技术实力。
为何 Auto 这个问题很重要?
如果观察近期行业的发展方向,Auto 已成为比较前沿的那一个。
比如苹果的 Apple Intelligence,Anthropic的 Computer Use、谷歌的 Jarvis,再到传言的 OpenAI 即将发布的 Operator。
顶级公司,纷纷剑指 Auto。那为什么会这样呢?
首先要看技术发展。
在模型技术出现之前,每个人都只能依靠键盘、鼠标、多点触摸等物理方法来与机器互动,总是人们适应机器。
到目前为止,用户仍然需要花费大量的时间来学习各种软件操作,尤其是复杂的公司软件界面,并且频繁地跨越多个应用程序来执行工作流程,充满了重复的机械操作,必须手动完成。
大型模型正在改变这一点,使机器适应人类。这是由于大型模型在自然语言、多模态感知和逻辑判断方面的突破。
因此,目前的大模型可以理解界面、规划任务、使用工具,甚至实现自我提升,初步具备模仿人类与物理世界互动的能力。
一言蔽之,Agent 带来更加直观的人机交互。
再次看看市场趋势。
Gartner 已将代理式 AI 列入 2025 年度十大技术趋势之一,据其预测:
到 2028 年,起码有 15% 代理式的日常工作决策将由 AI 自主完成。
对智谱的认识,张鹏也在现场给出了解释。
智谱将大模型发展分为五个阶段:L1 语言能力,L2 逻辑性(多模态)、L3 使用工具的能力,L4 自学能力和自学能力 L5 探讨科学规律。当前:
L1 语言能力:已经达到 80%
L2 逻辑能力:已经达到 60%
L3 使用工具的能力:仍处于早期阶段
L4 自学能力和自学能力 L5 科学性探究能力:正在探索中
在 L3 在这个阶段,尽管取得了显著的进展,但是大型模型在一些基本操作上仍然存在挑战,例如滚动、拖动和缩放,这对人类来说是很容易的。
并且对于智谱 Agent 技术的发展并非一蹴而就。
从 2023 年 4 月的 AgentBench 开始,到 8 月的 CogAgent 模型,2024 年度多项成果,智谱针对 AutoGLM 和 GLM-PC 模型 CogAgent 研究与开发工作,也进行了一年半。
智谱还强调,未来将继续加速。 Agent R&D模型产品。
One More Thing
AI 若想 Auto 当然,技术能力是一个方面,但是生态同样重要的是。
所以,智谱已经存在于芯片和操作系统中 、模型侧面和应用 APP 侧面,探索了一段时间,还有很多手机,PC 制造商完成了深度合作。
现场,包括荣耀、小鹏、华硕、高通、英特尔等合作伙伴也纷纷来到平台。
智谱 COO 张帆还强调:
Agent 不仅仅是操作系统和 APP 可以实现客户体验变革,还可以推广到各种智能产品上,实现基于大模型的数据共享。
从手机到电脑,再到汽车、眼镜、家居和各种边缘设备,这种扩展在理论上是否存在边界限制,具体到现在的各种设备。
对一切都可以 Auto 你期待未来吗?
内部测试地址放在下面,有兴趣的朋友可以申请哦 ~
清言插件:
https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday
AutoGLM- 安卓:
https://agent.aminer.cn/
GLM-PC:
https://www.wjx.top/vm/mOs9cHw.aspx
— 完 —
「MEET2025 智能化未来大会」
火爆报名中
定档 12 月 11 日!李开复博士、周志华教授,智源研究所王仲远所有的院长都来量子位MEET2025 智能化未来大会探讨行业破局之道!
,观众注册通道已经开通!欢迎来到 MEET 智能化未来大会,期待与您一起预见智能科技新未来
左右滑动查看最新嘉宾阵容
点这里� � 注意我,记住标星哦~
一键三连「点赞」、「分享」和「在看」
科技前沿进展日日相遇。 ~
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




