小心!AI学会了自己发红包

04-26 06:42

刚刚,智谱一波大浪潮来了——


你的手机、PC 等待设施,统统都是可以让的。 AI自动驾驶了。


现场,智谱 CEO张鹏一个直接来了 live demo。


只见他掏出荣耀手机,仅仅是说了三句话,就让 AI 发送给现场和在线观众。2个红包


帮助我创建一个零距离的群聊,数字是 1129,并将群聊名改为智谱开放日。


帮助我在智谱开放日的群聊中发送一万个红包,数量是一百个,名字是一百个。" AI 第一个发给你的红包"


帮助我在支付宝发送八百八十八个密码红包,总额一万。


更有意思的是,AutoGLM 现场“翻车”,但这一集并非因为个人能力…只是因为观众手速过快,AI 无法挤进群里。


除手机外,张鹏还在现场展示。手机和 PC 联动自动驾驶。


比如群发文档


向智谱开放日发送文件:智谱开放日新闻稿 .pdf。


再如给微博点赞


打开微博,帮助王心凌的微博点赞并发表评论。


嗯,在 PC 在执行这些任务的时候,现在所有的任务都变成了一个指令就可以了,然后, AI 就像人一样,一步一步地帮助你去做。


由此可见,大模型输出不再局限于文本、图像、音频或视频等多模式;现在,它可以是一个动作。(Action)。


正如张鹏在新闻发布会上所说:


这个应用程序显示了大模型从对话中(Chat)迈向操作(Act),从生成式 AI(GenAI)迈向代理式 AI(Agentic AI)演变趋势。


但是纵观全场发布会,智谱并不只是“发布”这一动作,AI 同时,自动驾驶能力也有了相应的提高。


外卖可以比价,54 每一步都没有断


智谱此次在 Auto 在这个问题上,共发布了三大商品,各自对应手机,Web 和 PC。


下一步,我们就一个个来看看。


手机:可以自动驾驶更复杂的任务


AutoGLM,事实上,一个月前,智谱在手机上的自动驾驶已经打开了内部测试。


而且从今天的发布来看,可以处理更复杂的工作,例如跨越 APP “货比三家”。


下面的案例中,AutoGLM 首先打开美团,然后打开饥饿,对同一商品的价格进行比较:


甚至面对高达54 个步骤超长任务,AutoGLM 还可以不间断地“唰唰”地独立执行。


下面这个例子,顾客只需要说一句:


帮助我在小红书上看看准备火锅需要什么食材,去小象超市买回来。


张鹏说,他们还亲自测量了一下,AutoGLM 与人类相比,处理时间更快。


除此之外,AutoGLM 还推出了2 个新玩法


第一个就是快捷短口令,对经常提出的要求,如“在最近的商店点一杯瑞幸橙” C “冰美式”,以后不必每次都说那么多字。


现在可以把它设定为“每日咖啡”四个字:


另一种新玩法是随意方式——遇事不决,让 AI 来做选择。


或者点咖啡这个例子,在随机模式下,AI 将随机咖啡品牌和类型,直到关键支付界面才需要顾客操作。


Web:全自动上网


除移动终端外,现在的 Web 端也可以 Auto 了。


下面的例子,AutoGLM-Web “在百度搜索芒果自动执行” TV,打开再见爱人,播放最新一集,弹幕”。整个过程没有人干涉。


据报道,该功能目前已支持网页搜索、微博、知乎、GitHub 等待数十个网站的自动驾驶。


PC:把琐碎的工作交给 AI


GLM-PC这是智谱新发布的计算机端自动驾驶。


例如,这样的任务:


查询浏览和总结 Geoffrey Hinton 百科全书,发给微信联系人。


再如淘宝购物


在淘宝上买 XL 并购买羽绒服。


还有就是把聊天截图丢了 GLM-PC,它可以直接帮助你预定大会


据报道,目前智谱开放第一阶段的内测体验场景一般包括:


信息:适用于微信、飞书、钉钉,可以向联系人或群聊发送信息


参与会议:适应腾讯会议、飞书会议等。,肯定会议日程和发送邀请;可以定期加入指定会议。


网页总结:可以打开浏览器,在平百度、公众号、知乎、小红书等平台上搜索关键词,进行阅读总结或翻译等。


总而言之,过去许多琐碎的事务,都可以交给过去 AI 自动执行。


它的背后是世界上第一个 UI Agent 视觉底座模型。


对于 AI 事实上,智谱也发表了关于自动驾驶背后原理的相关论文。


而且这次发布的 GLM-PC 这是一种拟人的多模态感知,正是基于这个智谱自研模型。CogAgent


值得注意的是,这也是如此。全球首个UI Agent 视觉底座模型。


CogAgent 这是一种视觉语言模型(VLM),专门用于理解和导航 GUI。


不同于只能处理文本输入的语言模型,CogAgent 截屏图像可以通过视觉输入来识别页面元素,例如按钮、图标和文本位置。


所以,它不仅可以理解网页上的内容,而且可以直接模拟人类客户的操作进行交互。


CogAgent 其特点是结合了低分辨率和高分辨率的图像编码器,从而更好地理解图像编码器。 GUI 不同类型的信息在页面上。


它的输入图像分辨率高达 1120 × 1120,能够准确地识别页面中较小的图标和文本,使之复杂。 GUI 在任务中表现出色。


而 CogAgent 这一关键可归结为两个主要部分:


视觉编码器


语言解码器


用于处理输入的视觉编码器 GUI 截图,将其转换为适合模型理解的特征表示。


为平衡计算复杂度和输入分辨率,CogAgent 采用了一种新型的高分辨率交叉模块设计,促使模型在高分辨率下仍能保持较低的计算费用。


引入这个模块,促进 CogAgent 可获得更详细的图像特征,无需显著增加计算资源。


具体来说,CogAgent 利用跨注意机制,将高分辨率图像特征与语言特征相结合,进而在各个层次上了解页面元素的关系。


这样的设计,促进 CogAgent 了解和操作网页和移动设备 GUI 其它基于语言模型的任务远远超过。


作为一种通用的视觉语言模型,CogAgent 在包括 VQAv2、OK-VQA、Text-VQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet 和 POPE 其中5个文本密集型和4个通用视觉问答标准达到了最先进的水平。


只有截图作为输入,CogAgent 在 PC 和 Android 的 GUI 在导航任务的基础上超越了 LLM 方法(例如 Mind2Web 和 AITW)所采用的 HTML 文字输入的提取,大大提高了当前的技术实力。


为何 Auto 这个问题很重要?


如果观察近期行业的发展方向,Auto 已成为比较前沿的那一个。


比如苹果的 Apple Intelligence,Anthropic的 Computer Use、谷歌的 Jarvis,再到传言的 OpenAI 即将发布的 Operator。


顶级公司,纷纷剑指 Auto。那为什么会这样呢?


首先要看技术发展。


在模型技术出现之前,每个人都只能依靠键盘、鼠标、多点触摸等物理方法来与机器互动,总是人们适应机器。


到目前为止,用户仍然需要花费大量的时间来学习各种软件操作,尤其是复杂的公司软件界面,并且频繁地跨越多个应用程序来执行工作流程,充满了重复的机械操作,必须手动完成。


大型模型正在改变这一点,使机器适应人类。这是由于大型模型在自然语言、多模态感知和逻辑判断方面的突破。


因此,目前的大模型可以理解界面、规划任务、使用工具,甚至实现自我提升,初步具备模仿人类与物理世界互动的能力。


一言蔽之,Agent 带来更加直观的人机交互。


再次看看市场趋势。


Gartner 已将代理式 AI 列入 2025 年度十大技术趋势之一,据其预测:


到 2028 年,起码有 15% 代理式的日常工作决策将由 AI 自主完成。


对智谱的认识,张鹏也在现场给出了解释。


智谱将大模型发展分为五个阶段:L1 语言能力,L2 逻辑性(多模态)、L3 使用工具的能力,L4 自学能力和自学能力 L5 探讨科学规律。当前:


L1 语言能力:已经达到 80%


L2 逻辑能力:已经达到 60%


L3 使用工具的能力:仍处于早期阶段


L4 自学能力和自学能力 L5 科学性探究能力:正在探索中


在 L3 在这个阶段,尽管取得了显著的进展,但是大型模型在一些基本操作上仍然存在挑战,例如滚动、拖动和缩放,这对人类来说是很容易的。


并且对于智谱 Agent 技术的发展并非一蹴而就。


从 2023 年 4 月的 AgentBench 开始,到 8 月的 CogAgent 模型,2024 年度多项成果,智谱针对 AutoGLM 和 GLM-PC 模型 CogAgent 研究与开发工作,也进行了一年半。


智谱还强调,未来将继续加速。 Agent R&D模型产品。


One More Thing


AI 若想 Auto 当然,技术能力是一个方面,但是生态同样重要的是。


所以,智谱已经存在于芯片和操作系统中 、模型侧面和应用 APP 侧面,探索了一段时间,还有很多手机,PC 制造商完成了深度合作。


现场,包括荣耀、小鹏、华硕、高通、英特尔等合作伙伴也纷纷来到平台。


智谱 COO 张帆还强调:


Agent 不仅仅是操作系统和 APP 可以实现客户体验变革,还可以推广到各种智能产品上,实现基于大模型的数据共享。


从手机到电脑,再到汽车、眼镜、家居和各种边缘设备,这种扩展在理论上是否存在边界限制,具体到现在的各种设备。


对一切都可以 Auto 你期待未来吗?


内部测试地址放在下面,有兴趣的朋友可以申请哦 ~


清言插件:


https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday


AutoGLM- 安卓:


https://agent.aminer.cn/


GLM-PC:


https://www.wjx.top/vm/mOs9cHw.aspx



「MEET2025 智能化未来大会」


火爆报名中


定档 12 月 11 日!李开复博士、周志华教授,智源研究所王仲远所有的院长都来量子位MEET2025 智能化未来大会探讨行业破局之道!


观众注册通道已经开通!欢迎来到 MEET 智能化未来大会,期待与您一起预见智能科技新未来


左右滑动查看最新嘉宾阵容


点这里� � 注意我,记住标星哦~


一键三连「点赞」、「分享」和「在看」


科技前沿进展日日相遇。 ~


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com