手机学会「点屏幕」了，为何笨 AI 也有将来？

2025-03-11

去年 11 月亮。为新机器荣耀 Magic 7 Pro 公布后，策划了一次可以称之为行为艺术的事件营销。

时任荣耀 CEO 赵明现场指挥 AI Agent YOYO 打开美团，下订单 2000 杯瑞幸饮料。经过这次操作，深圳发布会周边的瑞幸店铺纷纷开张。「爆单」，店内咖啡师忙得不可开交，接到订单的骑手更是在店内排起了长队。

此次效果显著但略带荒谬的事件营销，在一定程度上让公众忽略了荣耀试图展示的关键技术：「基于 GUI 的个人 AI 智能体」。

时至今日，AI Agent 功能确实不新鲜。而且这一技术的关键点，「GUI」上面三个字。

GUI 全称 Graphical User Interface，图形用户界面。这是基于一个 GUI 的 AI Agent，YOYO 不再依赖传统 API 接口，而是有一个虚拟的接口「手」，从图形界面直接替代客户。整个代理操作不在。「后台」，而是直接在「前台」，立即发生在顾客的眼睛下面。

需要澄清的是：Magic 7 Pro 市场销售型用户的体验可能与发布会演示不同。据财联社报道，当时现场演示使用的测试机权限较高，可以自动免密支付和循环点餐，从而不断点餐。 2000 杯饮品。至少目前市场销售模式需要用户明确告知订单细节(如品牌、品名、杯型、温度等)。)，用户需要接管并在支付过程中确定。

这一细节确实很重要，但也不会扼杀这一技术的存在意义。相反，我们认为，「基于 GUI」非常不同，非常有趣，非常有试验性。 AI Agent 实现路径。

AI Agent 交互的「前台」新路

荣耀 YOYO 其核心是多模态模型，GUI 语言是互动的本质视觉理解。

理解自然语言 (NLP)：理解「点击冰美式的杯子」的指令；
屏幕状态感知：识别当前界面中的内容，找到正确的界面元素，如按钮，输入框；
拟人化操作：点击按钮，像人类一样输入信息；
循环操作：持续分析新页面中的内容，定位和点击界面元素。

关于 GUI 操作部分，这最后一步是如何实现的，荣耀没有明确透露。一个安全的猜测是:它可以获得手机的无障碍功能。 (accessibility features) 或者类似的底层权限，从而控制屏幕点击事件。

这个最后一步并不难，甚至比以前的步骤要简单得多。但是除了之前的智谱之外 AutoGLM 除了极少数，其他第三方开发商和终端制造商确实很少。 GUI 互动路径。

过去，虚拟助理控制软件和智能产品的方法主要是通过 API 调用和物联网协议。它被理解为一种纯数字 (digital) 通信方式。

在三星指定型号的基础上，谷歌今年一月激活了。 Gemini 2.0 的 AI Agent 功能。这次合作都是通过 API 或者类似的实现(谷歌称之为 Gemini 扩展)，初期只支持 Gmail、第一方应用，如谷歌地图、三星日历、三星时钟等， Spotify 等待少量第三方应用。

要实现规模化、扩大支持的应用，开发者需要做一定数量的应用。 API 接入工作，同时还需要客户许可使用 Gemini 拓展。

谷歌依赖 API 调用后台接口，荣耀通过 GUI 模拟前台操作，两者在实现逻辑上有明显的区别。后者的优点是可以避免 API 利用这种常规方法，绕过其背后的商业游戏和数据成本，也能更快、更容易地扩展支持应用，实现规模化，改善用户体验。

成本是一个关键问题。一方面是云服务费，因为不管是什么。 API 提供者或调用者都需要运行服务器进行操作。另一方面， API 交换数据也有价值，所以数据价值更高。 API，一般来说，收费也比较高。

以美团为例，其订单服务的基础 API 收费标准为每百次调用。 0.15 人民币(前百万次免费)。这个只是基本类。 API，若涉及管理类，价值较高。 API，调用费用提高到每百次 0.3 人民币，而且没有免费额度。

此外，API 应用程序还包含一些隐藏的商业竞争因素。调用方获取数据，同时向提供方传输数据。不排除在特定条件下，双方都不希望液体肥料流向外部领域。

但在基于 GUI 至少就目前的演示效果而言，荣耀不需要向美团支付任何费用。 API 费用，双方也不必担心数据的归属，包括与之相关的隐私安全等问题。

AI Agent 只是在「效仿人类」单击屏幕，多么原始但有效的交互技术。

回归模拟，回归自然

这种「返祖」技术路径，让人联想到谷歌。 2018 年推出的 AI 电话助手 Duplex。

Duplex 当时的想法也有点清晰:谷歌合成了一个。 AI 语音，为顾客打电话给餐馆订位。这 AI 声音听起来并不生硬，甚至可以模仿真人的口音、速度、语气，以及加入。「嗯」、「you know」等等添充词。

今时今日，AI 语音的生成已经完全完成「污染」电力销售和客户服务行业，令人厌烦。但至少在那个时候，使用顶级的 NLP 通过语音合成技术，「打电话」这是一种模拟人类的订餐方式，这是另类的，从数字到模拟。 (analog) 互动技术，的确令人耳目一新。

现在正在推进荣耀的基础 GUI 的 AI Agent，对我来说，同样属于一种实现数字到模拟的方式，以原始与先进相结合的思想，带来了全新的概率。

基于 GUI 并不一定是实现手机 AI Agent 最好的路径，但是不可否认的是，它的确很有趣，甚至有点「硬来」的意思。

对用户而言，支使就是这样。 AI Agent 无学习费用，无需研究提醒语法；
对于第三方应用和服务平台来说，接入基本上不需要额外的开发成本。另一方面，他们不能拒绝被拒绝。「接入」，因为真正意义上的事情根本没有发生。「接入」行为。至少以 Android 从目前的沙盒机制来看，网络层不太可能。「抵御」系统底层的行为。

基于 GUI 的 AI Agent，既是对传统人机交互的致敬，又是 AI Agent 落地与体验提升，提供了降低门槛、提高兼容性的途径。

有时，最趁手的工具，真的只是一根干净简单的棍子。

大型模型与人机交互相结合，「笨」AI 也有将来

当今用户的主要需求场景有两种。 AI Agent。一种是智商型，能回答复杂的问题，完成困难的工作，比如 DeepSeek、Claude、还有前几天大受欢迎的 Manus。它也是目前最受欢迎和关注的问题。 AI Agent/Chatbot类型。

但是我们也需要另一种懂事能干的东西。 AI Agent，它对用户的使用技能没有很高的门槛。只要客户输入一两个简单直白的指令，就能理解，做好各种不复杂的事情。

今天可以点外卖。未来也可以帮你挂机放置游戏，称赞指定朋友的朋友圈，甚至自动修改新拍的照片发到社交网络。只要用户能做到，就是基于 GUI 的 AI agent 同样可以做到。门槛低，上限高，适应性强，使用更方便，可能就是这一类。 AI Agent 主要特征。

这类运动员不需要成为了解世界的大学者，只要是好的工具人就足够了。

2013 年年电影《云情人》( Her)，曾给大家无限的遐想。那时也是 NLP 随着技术的爆发，出现了许多优秀的语音情景产品和技术。一些研究人员和从业者坚信，自然语言对话将成为一种 AI 最主流的沟通方式。

但去年昙花一现的硬件产品 AI Pin，并开发它 Humane 公司越走越黑，不禁让人怀疑《云端情人》所设想的乌托邦是否如此美丽，声音到底是否如此美丽。 Chatbot终极答案/Agent。

进入触摸屏时代，交互的门槛明显降低，让孩子很容易掌握。根据 AI 开发者常用的隐喻，大模型的隐喻。「智力」就像孩子一样。所以让 AI 学习人类行为的触屏界面，听起来还是很有希望的。

归根结底，你的伴侣不一定需要一首歌。 AI 写诗，可能需要你按烂屏幕去抢一张周杰伦演唱会的票。

前几日 Manus 霸屏，再一次证明了我们曾经做过的一个预测：大模型将成为智能手机的新操作系统，自然操作界面 (Natural user interface, NUI) 将逐步取代现有的 GUI。

至少在现在看来，经过半个世纪的发展 GUI 仍然是人机交互的绝对主流。然而，大模型和 UI 结合起来，对人机交互进行了前所未有的重新定义，甚至逐渐成为操作系统 —— 这样的未来，的确越来越清晰。

本文来自微信公众号“爱范儿”（ID：ifanr），作者：发现明天的产品，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

“哪吒”背后的链上公司-期待更多优秀的动画作品