手机学会「点屏幕」了,为何笨 AI 也有将来?
去年 11 月亮。为新机器荣耀 Magic 7 Pro 公布后,策划了一次可以称之为行为艺术的事件营销。
时任荣耀 CEO 赵明现场指挥 AI Agent YOYO 打开美团,下订单 2000 杯瑞幸饮料。经过这次操作,深圳发布会周边的瑞幸店铺纷纷开张。「爆单」,店内咖啡师忙得不可开交,接到订单的骑手更是在店内排起了长队。
此次效果显著但略带荒谬的事件营销,在一定程度上让公众忽略了荣耀试图展示的关键技术:「基于 GUI 的个人 AI 智能体」。
时至今日,AI Agent 功能确实不新鲜。而且这一技术的关键点,「GUI」上面三个字。
GUI 全称 Graphical User Interface,图形用户界面。这是基于一个 GUI 的 AI Agent,YOYO 不再依赖传统 API 接口,而是有一个虚拟的接口「手」,从图形界面直接替代客户。整个代理操作不在。「后台」,而是直接在「前台」,立即发生在顾客的眼睛下面。

需要澄清的是:Magic 7 Pro 市场销售型用户的体验可能与发布会演示不同。据财联社报道,当时现场演示使用的测试机权限较高,可以自动免密支付和循环点餐,从而不断点餐。 2000 杯饮品。至少目前市场销售模式需要用户明确告知订单细节(如品牌、品名、杯型、温度等)。),用户需要接管并在支付过程中确定。
这一细节确实很重要,但也不会扼杀这一技术的存在意义。相反,我们认为,「基于 GUI」非常不同,非常有趣,非常有试验性。 AI Agent 实现路径。
AI Agent 交互的「前台」新路
荣耀 YOYO 其核心是多模态模型,GUI 语言是互动的本质 视觉理解。

- 理解自然语言 (NLP):理解「点击冰美式的杯子」的指令;
- 屏幕状态感知:识别当前界面中的内容,找到正确的界面元素,如按钮,输入框;
- 拟人化操作:点击按钮,像人类一样输入信息;
- 循环操作:持续分析新页面中的内容,定位和点击界面元素。
关于 GUI 操作部分,这最后一步是如何实现的,荣耀没有明确透露。一个安全的猜测是:它可以获得手机的无障碍功能。 (accessibility features) 或者类似的底层权限,从而控制屏幕点击事件。
这个最后一步并不难,甚至比以前的步骤要简单得多。但是除了之前的智谱之外 AutoGLM 除了极少数,其他第三方开发商和终端制造商确实很少。 GUI 互动路径。
过去,虚拟助理控制软件和智能产品的方法主要是通过 API 调用和物联网协议。它被理解为一种纯数字 (digital) 通信方式。
在三星指定型号的基础上,谷歌今年一月激活了。 Gemini 2.0 的 AI Agent 功能。这次合作都是通过 API 或者类似的实现(谷歌称之为 Gemini 扩展),初期只支持 Gmail、第一方应用,如谷歌地图、三星日历、三星时钟等, Spotify 等待少量第三方应用。
要实现规模化、扩大支持的应用,开发者需要做一定数量的应用。 API 接入工作,同时还需要客户许可使用 Gemini 拓展。

谷歌依赖 API 调用后台接口,荣耀通过 GUI 模拟前台操作,两者在实现逻辑上有明显的区别。后者的优点是可以避免 API 利用这种常规方法,绕过其背后的商业游戏和数据成本,也能更快、更容易地扩展支持应用,实现规模化,改善用户体验。
成本是一个关键问题。一方面是云服务费,因为不管是什么。 API 提供者或调用者都需要运行服务器进行操作。另一方面, API 交换数据也有价值,所以数据价值更高。 API,一般来说,收费也比较高。
以美团为例,其订单服务的基础 API 收费标准为每百次调用。 0.15 人民币(前百万次免费)。这个只是基本类。 API,若涉及管理类,价值较高。 API,调用费用提高到每百次 0.3 人民币,而且没有免费额度。
此外,API 应用程序还包含一些隐藏的商业竞争因素。调用方获取数据,同时向提供方传输数据。不排除在特定条件下,双方都不希望液体肥料流向外部领域。
但在基于 GUI 至少就目前的演示效果而言,荣耀不需要向美团支付任何费用。 API 费用,双方也不必担心数据的归属,包括与之相关的隐私安全等问题。
AI Agent 只是在「效仿人类」单击屏幕,多么原始但有效的交互技术。
回归模拟,回归自然
这种「返祖」技术路径,让人联想到谷歌。 2018 年推出的 AI 电话助手 Duplex。
Duplex 当时的想法也有点清晰:谷歌合成了一个。 AI 语音,为顾客打电话给餐馆订位。这 AI 声音听起来并不生硬,甚至可以模仿真人的口音、速度、语气,以及加入。「嗯」、「you know」 等等添充词。

今时今日,AI 语音的生成已经完全完成「污染」电力销售和客户服务行业,令人厌烦。但至少在那个时候,使用顶级的 NLP 通过语音合成技术,「打电话」这是一种模拟人类的订餐方式,这是另类的,从数字到模拟。 (analog) 互动技术,的确令人耳目一新。
现在正在推进荣耀的基础 GUI 的 AI Agent,对我来说,同样属于一种实现数字到模拟的方式,以原始与先进相结合的思想,带来了全新的概率。
基于 GUI 并不一定是实现手机 AI Agent 最好的路径,但是不可否认的是,它的确很有趣,甚至有点「硬来」的意思。
- 对用户而言,支使就是这样。 AI Agent 无学习费用,无需研究提醒语法;
- 对于第三方应用和服务平台来说,接入基本上不需要额外的开发成本。另一方面,他们不能拒绝被拒绝。「接入」,因为真正意义上的事情根本没有发生。「接入」行为。至少以 Android 从目前的沙盒机制来看,网络层不太可能。「抵御」系统底层的行为。
基于 GUI 的 AI Agent,既是对传统人机交互的致敬,又是 AI Agent 落地与体验提升,提供了降低门槛、提高兼容性的途径。
有时,最趁手的工具,真的只是一根干净简单的棍子。

大型模型与人机交互相结合,「笨」AI 也有将来
当今用户的主要需求场景有两种。 AI Agent。一种是智商型,能回答复杂的问题,完成困难的工作,比如 DeepSeek、Claude、还有前几天大受欢迎的 Manus。它也是目前最受欢迎和关注的问题。 AI Agent/Chatbot类型。
但是我们也需要另一种懂事能干的东西。 AI Agent,它对用户的使用技能没有很高的门槛。只要客户输入一两个简单直白的指令,就能理解,做好各种不复杂的事情。
今天可以点外卖。未来也可以帮你挂机放置游戏,称赞指定朋友的朋友圈,甚至自动修改新拍的照片发到社交网络。只要用户能做到,就是基于 GUI 的 AI agent 同样可以做到。门槛低,上限高,适应性强,使用更方便,可能就是这一类。 AI Agent 主要特征。
这类运动员不需要成为了解世界的大学者,只要是好的工具人就足够了。
2013 年年电影《云情人》( Her),曾给大家无限的遐想。那时也是 NLP 随着技术的爆发,出现了许多优秀的语音情景产品和技术。一些研究人员和从业者坚信,自然语言对话将成为一种 AI 最主流的沟通方式。
但去年昙花一现的硬件产品 AI Pin,并开发它 Humane 公司越走越黑,不禁让人怀疑《云端情人》所设想的乌托邦是否如此美丽,声音到底是否如此美丽。 Chatbot终极答案/Agent。

进入触摸屏时代,交互的门槛明显降低,让孩子很容易掌握。根据 AI 开发者常用的隐喻,大模型的隐喻。「智力」就像孩子一样。所以让 AI 学习人类行为的触屏界面,听起来还是很有希望的。
归根结底,你的伴侣不一定需要一首歌。 AI 写诗,可能需要你按烂屏幕去抢一张周杰伦演唱会的票。
前几日 Manus 霸屏,再一次证明了我们曾经做过的一个预测:大模型将成为智能手机的新操作系统,自然操作界面 (Natural user interface, NUI) 将逐步取代现有的 GUI。
至少在现在看来,经过半个世纪的发展 GUI 仍然是人机交互的绝对主流。然而,大模型和 UI 结合起来,对人机交互进行了前所未有的重新定义,甚至逐渐成为操作系统 —— 这样的未来,的确越来越清晰。
本文来自微信公众号“爱范儿”(ID:ifanr),作者:发现明天的产品,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




