未来AI手机，苹果和谷歌选择走同一条路。

2024-04-17

距离WWDC还有两个月，苹果的“AI大计划”也越来越清晰。

四月九日，苹果发表了一篇最新论文，发表了一篇名为Ferret的论文。新的UI模型。这种模式技术本身并不复杂，但它指向的是一场真正的手机AI革命。

2023年，AI如雨后春笋般涌现，大家都在猜测生成式AI会给智能产品市场带来什么变化。甚至怀疑智能手机是否能适应AI时代的新互动模式。

Rabittt也因此应运而生 R1， AI 许多所谓的AI，比如Pin等等。 native硬件。通过更好地利用AI的交互特性和Agent能力，他们试图挑战智能手机的霸权，并以取消手机的方式取代手机。

另一方面，在智能手机的一侧，只能使用功能较少的终端模型和可有可无的应用进行无力的反击。它的霸主苹果甚至一度被认为完全落后于AI时代。

但是现在它回到了主场，并且准备了一个可能用来面对AI时代的智能手机的答案：AI 手机系统Native。

苹果发表了一篇新论文，漏出了它的整个计划

这次苹果新发布的Ferret UI基于苹果的Ferret多模式模型。

与其他多模式模型相比，Ferret在发布时展示的主要优势是对图像具体区域定位点的认知远强于其他多模式模型，包括GPT-4 ROI。

在这个模型中，苹果提出了一个视觉采样器和语言模型，具有图像编码器和空间感知。（LLM）新结构。它有能力处理不同形状之间的稀疏差异，因此可以区分来自区域的形状(如点、线和框架)。客户可以根据画面中的具体区域与大模型进行更深入的对话。

Ferret在10月份刚刚发布的时候，业界对它的反应并不热烈。首先，它的区域识别优势不是当时大型模型领域最关心的问题。其次，它只有7B和13B2个尺寸，与主流大型模型相比太小。10月中旬，硅谷模型公司仍在试卷前后，业内只将其视为苹果在模型上的试水。

但是随着Ferret 随着UI的推出，Ferret的定位和目标要明确得多:它是苹果准备在新IOS上装载模型的主要模型之一。

Ferret UI所做的就是在手机UI中应用Ferret模型已经非常强大的图片区域识别能力。通过优化，可以更好地识别手机应用的页面。并将自然语言翻译成界面操作点。

简而言之，当你和AI谈到手机页面的情况时，它可以理解你所说的，并找到具体的元素。

以前，多模态大模型（MLMM）对手机UI的理解往往会出错。主要原因如下：

UI界面通常具有较长的纵横比，基于正常图片(16):9 / 4:第三，大型训练模型不能把握其图像全景。

并且包含了很多感兴趣的小目标(如图标和文本)，直接应用当前模型可能会失去对UI界面所需要的重要细节的理解。

为了解决UI不常见的问题，Ferret 在Ferret模型的基础上，UI在其上集成了"any resolution"(anyres)技术可以灵活适应各种屏幕纵横比。整个过程如下：

如果UI界面很大，那么就把它分成几个小的子图像，以便更好地捕捉UI页面的细节特征。

为了获得最大的信息度，所有划分的子图像都使用相同的图像编码器进行独立编码。

最后，将这些子图像的特征和全局图像的特征输入核心大语言模型。(LLM)中。

最后，Ferret以这种“用放大镜观察”的方式结束。 UI模型能更好地捕捉到UI页面的详细信息。

处理第二个问题比较简单，缺乏数据无法识别，然后在训练阶段狂喂相关数据。

Ferret UI收集了图标识别、文本搜索、组件目录等各种初级UI任务训练数据。这些任务数据训练模型准确定位和理解UI组件。同时，它还收集了与AI交互相关的高级任务数据，包括详细的解释、感知/交互对话和功能推理，以提高模型和UI相关的推理能力。

经过这种UI训练，最终的结果是，13B的Ferret 在完成初级和高级UI对话后，UI的能力超过了GPT44在iPhone环境中的初级UI任务。-V，整个任务的平均分，包括高级任务，非常相似。虽然Ferret在安卓环境下。虽然UI表现稍差，但这对苹果有什么关系呢？

体验Ferret 升级UI，Ferret模型可以完成简单的定位任务。(Referring Tasks):识别UI的外框、图标和文本内容。识别任务(Grounding Tasks):对UI进行相关查询，模型需要在页面上定位并标注相关元素。

同时，它还可以完成更复杂、更详细地解释UI组成的任务；根据UI与用户的感知对话和互动对话，可以告诉用户对应位置的具体UI内容，以及如何与UI互动的任务；以及根据UI元素推断该软件功能的功能推理任务。

这意味着Ferret 对于手机应用的功能，UI已经建立了相对完整的操作理解。并且是对GPT4级别的理解。

假如仅仅停留在理解这一层面，Ferret 事实上，UI的应用是有限的。举例来说，视障用户可以通过语言交互来了解UI的位置，或者整合到苹果自己的图形识别系统中来提高识别能力。

但是，如果这种理解与Agent的功能相结合，让Ferret UI模型可以去基于用户的自然语言交互操作手机，那个AI模型手机系统原型Native诞生了。

AI Native 移动电话而非AI 手机

在过去的一年里，如何将AI模型应用于手机已经成为芯片制造商和手机制造商最重要的问题。AI手机的概念层出不穷。然而，直到现在，芯片制造商和手机制造商展示的AI模型能力仍然停留在手机系统之外。

一种方法是硬塞一个大模型进入，由云或当地计算率驱动。它的感觉和Kimi助手，GPT app没有本质区别，最多可以在手机上读取相应的数据，应用起来比较方便。

另一种方法是在其预装应用中赋能AI能力，转化为法术修图、短信回复一键生成一定程度上无需大模型即可实现的功能。

这种应用方式使AI手机这一概念显得不伦不类，更像是一款安装了AI大型应用的手机。

而且真正能应付来势汹汹的AI新硬件，至少应该是一个完全适应AI新交互的手机系统。

现在的Ferret UI的出现，促使这一事件成为可能。

一个14B以下的大模型，可以直接在手机本地运行，可以让你用自然语言控制UI并进行相关操作。如果这个功能集成在Siri上，那么Siri就可以成为所有应用程序的新入口，你可以用一句话控制手机的所有功能和所有应用程序的所有相关功能。这实际上与Rabitt相关 R1的想法是一样的。

而这一次，你不必牺牲屏幕本身。体验Humane 的AI 在Pin和其他AI智能产品中，虽然他们可以通过自然语言完成大部分的交互，但他们没有屏幕。没有屏幕对于生活在视频时代的人来说几乎是无法忍受的。此外，声音以外的交互技术的缺乏也让他们在你对面有人的时候不好意思使用。

但是如果手机能够实现这种互动，并且有屏幕的话。为什麽我们还需要一款新的所谓AI智能产品来完成这一切？

所以，跌跌撞撞一年后，苹果应该找到了AI。手机的真诚。如果情况顺利，也许我们可以在两个月后的WWDC上看到原生AI的苹果手机系统。而且很可能是第一个 AI 手机系统。

Google和苹果，一场新的竞争正式比赛

也许，是因为苹果在系统上的老对头谷歌，实际上做出了同样的路线判断。

谷歌在半个月前的3月19日发布了一款新的ScreenAI模型，它与Ferrett有关就像UI一样，都是直指 UI 理解多模态模型。其结构相对简单，基于Pali，包括两个组成部分，一个视觉变换器。 (ViT），用于理解UI视觉；T5图形编码器，用于相应客户提问的文字图像信息。

为了解决UI问题，谷歌的操作和苹果基本没有区别。它将UI界面分成5*7块来识别细节，并利用UI相关的训练集来增强对UI元素的认知。

尽管没有像苹果那样与GPT4进行比较，但是它也与自己的Geminini相比。 Ultra对UI任务进行了检查，也差不多。值得注意的是，ScreenAI比苹果的Ferret小，只有不到5B。谷歌还试图用ScreenAI串联完成高级UI任务的Palm2足以超越Geminini。 Ultra。

因此，2024年春天，智能手机OS的两大霸主并肩站在AI手机上。比AI更强的谷歌和比系统更强的苹果走到了同一起跑线上。

如今的问题，只剩下谁跑得快了。

谷歌 I / 五月十四日，苹果的WWDC在六月举行了O大会。争分夺秒的战争已经开始。

本文来自微信微信官方账号“腾讯科技”（ID:qqtech），作者：郝博阳，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

不要来，整个淄博也没有串起来。

第一位女CEO屈臣氏迎来

第一季度，头部代建公司仍在迅速扩张。

整个商场都找不到蹲便，蹲厕真的比坐厕更卫生吗？

为什么国内的APP营销广告那么多？