AI手机:光明的前景和布满荆棘的道路

01-10 09:37

文 / Rainbow 主流终端制造商合规负责人


作为人类的助手,塑造一个智能体, AI 时代具有光明的前景。


它还是智能手机,智能产品,甚至软件制造商都在尝试的计划。


2024 2008年,荣耀发布首款搭载首款。 AI Agent 的荣耀 推出Magic7 YOYO 智能体;小米 15 搭载澎湃 OS 二是将“小爱”升级为“超小爱”;vivo 也发布了 PhoneGPT。


大型进入端侧使设备具有“大脑”,而智能体则形象化成为链接客户的最佳入口。


可是,智能体作为一种“新兴物种”,在落地应用中还有很多问题需要澄清。什么是智能体?如何实现人类助手的功能?如何保证数据在处理庞大数据量时的合规性?终端 AI 智能体可能会影响第三方应用流量甚至 App 生态学模式,下一步如何促进产业健康发展?


本论文将就此展开讨论。


一、AI Agents 崛起和未来趋势


(一)从自动化到通用智能:AI Agents 的演变脉络


人工智能(Artificial Intelligence)经过几十年的发展,从早期重视逻辑判断和专家体系,逐渐演变为基于深度学习和大规模预训练的模型。(LLMs)的时代。伴随着模型规模的指数级扩展和多模态技术的兴起,AI Agents(也称为智能体)开始具备更强的互动和管理能力,不再局限于单一任务的自动化,而是能够在更复杂的环境中积极规划、执行和纠正错误。


近年来,OpenAI、DeepMind、谷歌,微软,Meta、智谱 AI 等待研究机构和公司,在智能体技术方面取得了显著突破。大多数智能体都强调对环境的感知和操作,包括文字、语音、视觉甚至物理环境。一些学者称这一增强能力的系统为具体智能。 AI(Embodied AI),而其中的 GUI(Graphical User Interface) Agent 也就是说,智能体是专门为人机图形交互界面而设计的。


(二)AI 智能体对 AGI 实现的价值


1. 近期场景:2025 年预测


● Sam Altman 对 2025 年" AI 智能员工“上岗预言”


OpenAI CEO山姆 · 奥特曼(Sam Altman)星期天晚上发表了一篇题为《反思》的新年博客文章,推测,在 2025 2008年,我们可能会看到第一批人工智能体“加入劳动力市场”,实质性地改变了企业的产出。"【1】


● 斯坦福 HAI 对于“合作”专家 AI “期待大规模发展


斯坦福大学人类中心 AI(HAI)一些研究人员还指出,2025 一年左右,合作型 AI 智能机构将在医疗、金融、教育、政务等多个行业大规模传播。这些智能机构不仅可以与人类合作,还可以相互配合,完成更复杂的任务。根本意义在于:AI 由单一工具上升为“合作者”,人机协作多。 AI 智能体协作将成为常态。【2】


2. 终端 AI 对于通用智能,智能体(AGI)的启发


AGI(Artificial General Intelligence)也就是通用人工智能,旨在使用 AI 具有与人类相似的普遍认知能力和自适应能力。目前,跨应用控制在智能终端上进行 AI 智能体,虽然不能称之为 AGI,却为 AGI 为重要试验场提供:


1. 多模式交互:GUI 通过视觉理解屏幕元素、文本识别文本内容,智能体甚至可以结合语音进行命令执行,这使得 AI 更接近人类的多感官信息收集方式。


2. 独立规划与执行:您可以“看屏幕”并模拟点击或调用官方接口来实现目标,代表着 AI 真的有一定的“动手能力”,而不仅仅是“动嘴”或“动脑”。


3. 自我纠正(反思能力):一些方案引入了“反思智能体”,这使得系统能够根据实施结果进行评估和调整。这是通用智能的“自我反馈回路”。


总之,终端 AI 为了快速发展智能体, AGI 为后续更深层次的智能落地奠定了基础,带来了更丰富的情景实践。


当前终端 AI Agent 主要技术规范


终端 AI 在手机和电脑中,智能体的趋势越来越明显,主要表现为对智能理解和自动操作能力的渴望。核心思想是让步 AI 和人类一样,不仅可以“理解”屏幕,还可以“点击”或“调用”各种应用功能,从而完成复杂的任务。总而言之,行业内有两个主流方案:


(一)屏幕识别 模拟点击


使用光学字符识别(OCR)通过模拟用户点击或键盘输入,系统可以识别当前屏幕上的文字、图标和控件,并完成操作。比如,智谱 AI 的 CogAgent-Chat 配合多智能体合作,支持高分辨率图像输入任务[3];Mobile-Agent-v2 还通过“规划、决策、反思”三部分智能体,在移动终端上实现了更高成功率的跨应用实施。【4】


(二)屏幕识别 意图框架执行官方接口(或类别) API)调用


另外一个想法是由平台(例如 iOS)提供官方 API 或者是意图框架,让 AI 不需要模拟点击就可以直接调取应用功能。在苹果的帮助下 Onscreen Awareness 功能让 Siri 了解屏幕内容,然后通过开发者提供的内容。 Assistant Schemas 对数据类型和可执行功能进行查询,一般由 Apple Intelligence 理解任务,规划行动,并执行。【5】


微软提供的 UFO ( UI-Focused Agent for Windows OS Interaction ) 使用多种形式进行操作 Windows 应用程序,包括模拟点击和 API 调用:


1. UI 控制:UFO 可以通过模拟鼠标单击和键盘输入来操作应用程序的操作界面。它使用 Microsoft 提供的 UI 在应用界面上,自动化工具可以测试应用程序。 UI 控件,并为每个控件分配编号。在智能体观察了这些数字和控件截图之后,可以选择特定的控件进行点击或输入操作。


2. 原生 API:UFO 可使用应用程序提供的原始应用 API 执行操作。这种方法可能比模拟更好 UI 更加高效可靠的操作。


3. AI 工具:UFO 也可以使用如 "Copilot" 等 AI 工具可以完成某些任务。


4. 代码 API:对某些应用程序,UFO 他们可以用来提供代码。 API 进行操作。[6]


三是多角度思考和综合治理的路径


AI 技术发展带来的影响是复杂而长远的,怎样在终端 AI Agent 实现技术发展与法律合规、创新与安全、效率与公平之间的稳定平衡,是我们目前需要面对和解决的问题。本节我们将从几个核心层面切入,最终提出“综合思维象限”或“多主体、多维度”的分析框架,确保在法律层面给出可行的治理思路。


(一)多角度思考


1. 技术和 AI 进化


模拟点击更适合人类使用,覆盖面更广;官方接口更安全高效。两者都在推动。 AI 向多模态和更高自主性方向发展。


2. 顾客体验和隐私安全


用户可以通过跨应用操作获得便利,同时也要了解屏幕信息在哪些场合共享。平台必须建立完善的权限和授权机制,以减少用户对隐私泄露的担忧。


3. 法律合规与监督


屏幕识别和 API 调用将涉及个人信息保护和数据安全。各国个人信息保护法等都强调知情同意和最小化收集原则,要求平台或平台 AI 服务需要很好地控制潜在风险。


4. 竞争与生态


终端 AI 智能系统可能会影响第三方应用流量甚至 App 生态学模式。需要重组 AI 介入后产业链发生变化,产生新的产业格局,促进产业发展更加健康。


5. 影响社会和未来


随着更多的智能体承担任务,必然会带来新的就业方式或职业设备;伦理标准和行业标准也需要同步跟进,防止技术使用不当。


(二)综合思维象限:多主体、多维平衡


如果要将上述层次融为一体,可以采用“多主体-多维交叉”的分析框架。主体包括用户、开发者、平台 / 系统制造商,监管部门,AI 技术提供商;层次包括技术进化和客户体验; / 隐私、安全 / 合规、竞争 / 生态学和社会效应。


通过这个矩阵,我们不仅可以看到单一维度的冲突和协调,还可以找到不同维度主体的隐性需求或差异,从而找到平衡方案。


(三)从具体方案到综合治理


从智谱 CogAgent-Chat、微软 UFO、Mobile-Agent-v2 到苹果的 Onscreen Awareness App Intents,这类技术路线看起来各不相同,但都处理着同样的关键问题:“怎样让? AI 在操作系统或应用中,真正模仿人类复杂的点击、输入、跨应用转换等操作?”


1. 多智能体,分工合作:在技术架构上,许多方案都导入了规划。 / 决策 / 反省这一思路,提高可控性和通过率。


2. 接口和模拟点击两条路径共存:有的倾向于“模拟点击”,有的则强调“官方意图框架”;它是对现实生态和长尾需求的妥协。


3. 安全性与生态平衡是关键:无论实现什么技术,都无法避免隐私保护、授权机制、数据安全、生态竞争等实际问题。


4. 对未来 AGI 的意义:让 AI 真正的“能看见、能思考、能操作”,将理论研究与实际操作环境相结合,这正是 AGI 一个重要的实践在路上。


终端 AI 智能体不仅提高了技术和效率,还在客户体验、法律合规和市场竞争中指出了新的话题。为了实现更健康的发展,有必要从多方面入手。


AI 产业链主体应继续加强系统级权限设置和数据最小化收集。不管是屏幕识别还是 API 调用时,需要尽可能为用户提供可理解的操作面板和授权提醒,让用户使用。 AI 在实施自动化功能时,更有安全感。对于平台和开发者来说,可以选择建立“官方接口” 模拟点击“两条路径并存的方法:一方面为用户提供通用感受,另一方面也给了应用开发者更好的控制其主要功能或敏感数据的机会。


同时,也应该看到,AI 技术进步不仅带来了便利,而且引发了更深层次的社会转型。伴随着更多 AI 随着智能体逐渐走向日常应用,由于自动化程度的提高,行业分工可能会有新的调整,部分行业和岗位的工作内容可能需要重新定位。如何在技术改革的同时,兼顾个人权益和产业活力,将是一个长期的议程。


AI 时代,生态格局会有什么变化?软硬件制造商如何寻找最大公约数?我们将继续发布报告,敬请关注。 ...


注:


【1】郝博阳 无忌:“奥特曼新年发文:OpenAI 周活破 3 亿,我们已经找到了方向 AGI 之路,载于腾讯科技微信官方账号。


【2】Stanford HAI:《Predictions for AI in 2025: Collaborative Agents, AI Skepticism, and New Risks》


【3】Wenyi Hong 等:《CogAgent: A Visual Language Model for GUI Agents》


【4】Junyang Wang 等:《Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration》


【5】Apple:《Bring your app to Siri-WWDC24》


【6】Chaoyun Zhang 等:《UFO: A UI-Focused Agent for Windows OS Interaction》


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com