AI手机的第一个杀手级应用是“AI读屏”?
经过一年多的摇旗呐喊,AI手机终于在2024年完成了智能手机的替代。
至少从概念上来说,今年几家主流手机厂商已经完成了向AI手机的传播规格转变,甚至苹果也高调选择了嫁给OpenAI。
即便如此,对大多数消费者来说,仍然不能理解。「AI手机」和「智能手机」到底有什么不同呢?
至于AI手机,我今年看到的最直接、最直接的AI功能是「AI读屏」:
手机配备的智能身体可以像人类一样识别手机屏幕上的内容,然后根据人类的思维能力一步步完成常见的功能,如网购、朋友圈点赞评论等。
不同于智能手机中的AI:
这种AI有很大的“思维链”,实现逻辑更加复杂。
不同于智能手机时代的功能设计逻辑:
这次,「AI读屏」功能性的后台执行逻辑,被手机厂商完全呈现在手机屏幕上。
对大多数普通消费者而言,人工智能自动化能力首次被形象化,它带来了最直接的视觉冲击。

所以,这种“读屏术”是如何在技术上实现的呢?
01 微软谷歌仙人较量,端侧AI原型初显显示
大模型爆炸后,微软和谷歌之间的交流竞争成为这场绝世之争的亮点。AI手机的“读屏术”正是在这样一场仙人比赛中逐渐形成的。
微软New2023年2月8日 Bing(Bing AI)发布,这是微软与OpenAI联合后,通过生成式AI对搜索引擎产生的新一轮冲击,New 在ChatGPT的加持下,Bing曾经赢得了巨大的市场热度,也曾经吓到谷歌。
面临Neww版本的ChatGPT版本 Bing,随后谷歌牺牲了自己的Bard。
Bard支持基于Transformer架构的LaMDA,早在2021年就在谷歌内部发布,但它仍然是一个实验聊天机器人。
这是谷歌和微软在生成式AI领域的第一次积极较量。双方的这场比赛让互联网老产品搜索引擎有了一些新的想法。

然而,此时的生成式AI,并未对端侧造成直接冲击。
在微软Copilot发布之后,真正的冲击。
微软于2023年3月16日正式宣布Microsoft。 Copilot服务365应用程序(Microsoft 365 Copilot),将生成式AI叠加到办公软件之后,真正的内容生成魔力开始成为生产工具的一部分。
由此,大型模型也在企业办公软件领域形成了一种趋势,开启了抢滩登陆的方式。
就谷歌和微软两大科技巨头而言,为了在生成式AI技术模式下进行杀手级应用,他们利用生态力量——全面开启Windows生态和安卓生态面向大模型。
在那之后,两者之间的大模型之争开始下沉到终端。
经过半年左右的试错和打磨,谷歌和微软分别拿出了自己的“关键作品”:
2023年10月发布的谷歌pixel 在8系列手机上增加了一个名字。Circle to Search的功能。
有了这个功能,谷歌AI可以自动搜索该产品的相关信息和来源,只要你在手机屏幕上的照片上标注你想知道的产品。
在这个功能之后,三星也把它作为Galaxy。 AI的主要功能,对外宣传推广。

实际上,谷歌在这个功能出现之前已经对Bard进行了升级,更新后的Bard可以从Gmail中获得。、Docs、在谷歌地图、YouTube等应用中总结信息,也是在那个时候,谷歌开始深度搜索个人当地知识库(即RAG),从而衍生出一个个人助理,为用户提供出行建议、行程安排等功能。
Circle to 自然,Search继承了这种能力。
2024年5月20日,微软是AI。 在PC新闻发布会上,官方宣布功能Recall。
该功能是帮助用户根据记忆点或时间轴,通过微软Copilot跳回计算机上显示的原始内容。

事实上,OpenAI发布了GPT-4o,并展示了一波视觉识别功能,以赢得苹果的大模型订单并获得新一轮融资。
让GPT-4o通过手机镜头在纸上解写数学题,甚至识别出镜头前出现的顾客的情绪。

增强生成检索(RAG)随着包括语言和视觉在内的多模态大模型技术的成熟,以及大模型在端侧的下沉和应用,AI屏幕阅读功能已经成为手机上的理所当然。
02「AI读屏」工作流
AI读屏功能在2024年的手机圈迅速成为标准。
仅从上周手机圈密集发布会上公布的信息来看:
首先,华为在鸿蒙系统新闻发布会上发布的小艺圈选择功能(类似于谷歌的Circle to Search),还有荣誉在更新新系统时发布演示的“一句话点咖啡”功能。
在OPPO Find 在X8系列发布会上,OPPO更加直接更新。「一键问屏」功能。
可能是因为是针对手机系统的新闻发布会。虽然荣誉邀请了沈腾作为公司的AI使者,并做了以“AI就是一句话”为主题的广告,但并没有给出明确的功能,比如「AI读屏」或「一键问屏」这种命名。
然而,荣耀CEO赵明却在发布会上说得很清楚。「AI读屏」具体的功能工作流程。
AI读屏的工作流程在赵明的介绍中可以分为三个步骤(以“帮我点杯喝,我有点累”语音命令为例):
第一步,模糊意图理解。
内置智能手机将语音命令拆分理解,分析用户的意图是“累”点杯解困,选择可能的选项(咖啡、绿茶、凉茶等)。).

第二步,复杂的任务规划。
第一,智能体根据手机的时间信息,定位信息,识别最终的配送地址;
然后智能体根据手机现有的本地个人知识库收集到的你的日常饮食习惯,获得你想点咖啡的品牌、甜度、是否加冰等信息(如果是新机,这一步会卡住,用户需要手动选择);
最后,智能体确定具体的点餐信息,并自动填写配送地址。

第三步,自动执行任务。
先在手机屏幕上识别本地生活服务APP(如美团),搜索咖啡品牌(如瑞幸);
第二,识别和理解屏幕上的关键信息,进入外卖点单页面(例如瑞幸的幸运运输);

接着根据已经计划好的客户点餐内容(如大杯少冰正常糖拿铁),在屏幕上一步一步地进行类人选择操作;
最终进入清算页面,客户接管,由用户选择是否使用优惠券,是否确定下单。
假设ChatGPT在世界范围内形成的热潮使每个人都意识到生成式AI、作为一个更聪明的聊天机器人,大模型的颠覆性首先带来了另一种交互模式的改变。
AI阅读屏幕是人类与手机互动模式变化的重要体现。
03 当AI开始接管你的手机时。
AI读屏背后的技术逻辑,以及微软的Recalllll,如果结合微软和谷歌的大模型之争,、Circle谷歌 to Search,而OpenAI的GPT-4o也有许多相似之处。
就技术实现原理而言,GPT包含OpenAI、AnthropicClaude、Gemini谷歌、所有主流模型,包括阿里通义千问,都可以做AI读屏功能。
实际上,就在手机圈纷纷下注AI读屏功能的时候,上周与三星中国正式宣布了2024中国计算机大会的战略合作智谱AI。(CNCC AutoGLM在2024上发布。
AutoGLM是什么?
智谱AI的大模型是以GLM命名的,AutoGLM也是具有自主性的大模型,有媒体将其解读为学习使用工具的大模型,但本质上是在手机上完成AI读屏功能。

根据官方公布的信息,这个模型当前是以App中的一个功能模块呈现出来的。(仅支持安卓手机,目前仍处于内测阶段),与手机底层系统没有很强的联系,也不挑手机品牌。。
假设在这个环节中,手机厂商的地位有什么特别之处,那应该是平台和数据。
手机厂商作为手机这一非常硬件的主导者,不仅掌握了平台入口,而且具有较强的系统集成能力。
这意味着本地个人知识库决定了端侧智能体的智能水平,以及端侧智能体的微调和优化能力,对几家手机厂商的软件团队具有很强的依赖性。
实际上,早在10月22日,OpenAI的头号死敌Anthropic就宣布了Clauden。 3.5 Sonnet,Anthropic在这次版本更新中增加了一个独特的功能,即“computer use“。
这个computeruse实际上是PC版本的AI读屏。它可以读取你的PC屏幕,并自动执行搜索游戏策略、编程代码等功能。根据你给出的一段话的任务指令。

然而,在Anthropic官方描述中,OSWorld(评估) AI 模型可以像人类一样使用计算机),Claude 3.5 Sonnet得分为14.9%,远未达到人类平均水平,人类平均得分为70%-75%。
为了提高模型的准确性,当地的个人知识库也是必须的。
在过去的短短一周里,这么多AI巨头和手机厂商都瞄准了AI屏幕阅读功能,显然把这个功能当成了AI手机的杀手级应用。
AI读屏,的确最能体现AI手机的“AI智能手机和“智能手机”AI“本质上的差异,也是各大手机厂商的机遇。
对像我们这样的普通消费者来说,未来,AI不仅会接管你的手机,还会接管你的PC,甚至更多的电子产品。。
而且这种UI Agent,事实上,端侧智能体并非终极形态。
本文来自微信微信官方账号“锌产业”,作者:山竹,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




