苹果在AI方面真的什么都没做?悄悄建立更小更高效的模型,创造更强的Siri。

2024-05-11
  1. 尽管苹果经常给人一种AI领域落后的错觉,但实际上它正在悄悄地构建AI大模型和其它相关工具。


  2. 苹果希望在智能手机上运行高效、多功能的大型模型,并致力于使这些AI功能离线运行。


  3. 苹果正在努力帮助Siri变得更强大,所以在改进唤醒词检测系统时,确保它能更好地理解和与客户沟通。


  4. AI在许多领域都具有广泛的应用价值,包括健康医疗、文艺创作、图像编辑和音乐等。




人工智能领域,人们可能很容易产生苹果起步较晚的错觉。自2022年底ChatGPT席卷全球以来,苹果的大部分竞争对手都在加快步伐,努力在人工智能方面取得突破。诚然,苹果之前提到过人工智能,并发布了一系列融入人工智能元素的产品,但与其他科技巨头相比,似乎更多的是在探索而不是全面下注。


然而,在最近几个月的谣言和报道中,不难发现,苹果一直在背后默默等待机会,准备出发。近几周有报道称,苹果正在与OpenAI、谷歌等行业巨头进行深入谈判,支持其人工智能功能,并积极开发自己的Ajax人工智能模型。


仔细观察苹果发布的人工智能研究报告,不难发现其人工智能方法具有潜在的现实意义。当然,从研究报告到产品的实际着陆,中间的道路通常充满了坎坷和不确定性。然而,当苹果在今年6月召开的年度开发者大会WWDC上讨论人工智能功能时,我们至少可以窥探到公司的人工智能战略,以及这一功能将如何在实际应用中发挥作用。


Siri将足够强大,不再需要唤醒词?


当我们谈论人工智能产品时,我们通常会把注意力集中在虚拟助手上,也就是那些知识渊博,能够为我们设置提示,回答问题,代表我们完成任务的智能合作伙伴。苹果在人工智能领域的许多研究最终聚集在一个核心问题上:如果Siri足够强大,会是什么样的场景?


苹果的一个精英研究团队正在探索一种创新的启动Siri的方法,而不需要唤醒词。这意味着设备可能可以通过直觉来判断你是否在和它交流,而不仅仅是依靠“嘿”或“Siri”指令。研究人员直言:“这个挑战比语音触发测试更严重,因为没有明确的引导语句来标记语音命令的开始。”


就这样,另一组研究人员开发了一个系统,旨在更准确地检查唤醒词。另一篇研究论文致力于训练模型,以便更好地理解虚拟助手难以准确捕捉到的罕见词汇。


在这些场景中,大语言模型的魅力在于理论上可以快速处理大量数据。例如,在唤醒词检验的研究中,研究人员发现,如果所有的声音都被输入到模型中,而不是试图过滤掉所有的冗余声音,以便自己区分重要和次要的内容,唤醒词的识别将变得更加可靠。


一旦Siri抓住客户的声音,苹果将尽最大努力确保他们能够更好地理解并与客户顺利沟通。因此,他们开发了一个名为STEER的系统,希望通过分析用户何时提出后续问题,何时开始新的话题,优化用户与虚拟助手的互动体验。


在另一个应用场景中,研究人员可以使用大语言模型来分析那些“模糊搜索”,无论客户如何表达,他们都可以准确地捕捉他们的意图。研究人员指出:“面对不确定性,智能对话代理人可能需要主动提问,以减少疑惑,从而更有效地解决问题。另外,还有一篇论文致力于提高虚拟助手的答案质量,通过大语言模型使答案更简单、更容易理解。


苹果AI专注于健康、图像编辑、音乐等领域


每当苹果公开谈论人工智能时,它往往更注重人工智能如何给日常生活带来便利和改善,而不仅仅是强调技术的原始力量。尽管Siri一直备受关注——特别是在苹果,比如HumaneAIPine。、在RabbitR1等设施竞争的背景下,谷歌正在将Gemini融入到所有的Android系统中——但是苹果显然已经在许多领域看到了人工智能的广泛应用价值。


健康领域是苹果关注的焦点之一。理论上,先进的人工智能技术可以帮助你从各种设备收集的海量生物识别数据中提取有用的信息,帮助你理解这些信息背后的含义。所以,苹果一直在探索如何收集和整理用户的运动数据,如何使用步态识别和耳机来识别用户的身份,以及如何准确地跟踪和解读心率数据。此外,苹果还建立并发布了“基于多设备和多相位传感器的最大人类活动数据”,其中包括50名参与者的各种身体传感器数据。


人工智能似乎也被苹果视为一种创造性工具。在一项研究中,研究人员开发了一个名为Keyframer的系统,该系统通过采访动画师、设计师和工程师来“用户可以迭代和完善设计”。Keyframer用户可以从一个提示开始,获得一个包含多种元素的工具包,然后根据个人喜好优化和完善图像的特定部分,这不同于以前通过输入提示来生成图像,然后输入另一个提示来获取新图像的方式。从Memoji的个性定制到苹果更专业的艺术工具,这种互动艺术过程可以广泛应用于各种场景。


另外一项研究表明,苹果描述了一种名为MGIE的图像编辑工具。简单地描述一下你想做的编辑操作,比如“让天空更蓝”、"让我的脸看起来更自然"、MGIE可以通过添加一些石头来自动实现这些效果。“MGIE不仅提供模糊的指导,而且能准确地捕捉到用户的视觉感知意图,并产生合理的图像编辑效果,”研究人员说。”虽然早期的实验结论仍然存在缺陷,但其潜力已经足够引人注目。


在AppleMusic中,我们甚至可以感受到人工智能的魅力。一篇名为《资源有限的立体声演唱语音消除》的文章(Resource-constrainedStereoSingingVoiceCancellation)在论文中,研究人员讨论了如何将歌曲中的声音与乐器声音分离。如果应用这种技术,将为用户提供一个强大的工具,在TikTok或Instagram上再次混合歌曲。


使用iPhone方法调整Ferret模型或调整模型。


随著时间的推移,苹果将更多地关注硬件与人工智能相结合的策略,特别是iOS生态系统。预计苹果将这些先进功能集成到自己的应用中,并通过API向第三方开发者开放一些功能。与一般的安卓设备相比,苹果一直以其优异的硬件性能为荣。当这种强大的性能与以隐私为核心的设备上的人工智能技术相结合时,无疑将成为苹果和其他品牌之间的一个多元化因素。


但是,如果你想欣赏苹果在人工智能领域最大、最宏伟的项目,你必须提到Ferret。Ferret作为一种多模式的大语言模式,不仅可以接受和执行指令,还可以专注于你选择或选择的特定事物,并对周围的世界有深刻的理解。它是专门为现代人工智能用例设计的,即用户可以询问设备周围的环境问题,但更进一步,它也可以解读屏幕上的内容。


在Ferret的相关论文中,研究人员指出,它可以帮助用户浏览应用程序,回答关于应用商城评分的问题,描述客户正在查看的内容。这项技术有很大的潜力提高无障碍的感觉,可能会彻底改变我们使用手机、VisionPro甚至智能眼镜的方式。


开发更小、更高效的模型


大家都在期待一款更好的Siri,而且它的高级版本似乎会隆重出现!苹果的许多研究(以及全球科技行业的普遍探索)都是基于一个共同的前提,即大语言模型(LLM)将使虚拟助手达到更高的智能水平。对苹果而言,实现Siri的进化不仅意味着人工智能模型的快速推出,而且保证它们能够无缝地融入到客户生活的方方面面。


最近有报道称,苹果计划在iOS18中完全离线运行所有人工智能功能。即使在拥有数据中心网络和数千个尖端GPU的情况下,构建高效多功能的模型仍然是一个巨大的挑战,更不用说在智能手机上实现这一点了。因此,苹果必须展示其独特的创新思维。


一篇名为《闪存中的LLM》的文章:利用有限的内存实现高效的大型语言模型推理(LLMinaflash:EfficientLargeLanguageModelInferencewithLimitedMemory)研究人员在论文中提出了一个创新的存储模型信息系统。这一信息通常存储在设备的RAM上,但是研究小组巧妙地将它们转移到SSD上。她们写道:“我们已经成功地验证了LLM在SSD上运行的能力,它的大小是DRAM的两倍。与传统的CPU载入方式相比,推理速度提高了4-5倍,但在GPU上却提高了20-25倍。“这些模型可以通过巧妙地利用设备上最经济、最容易获得的存储空间,实现更快、更有效的运行。


苹果的研究人员还开发了一个名为EELBERT的系统,它可以在保持其性能的同时将LLM压缩到更小的范围内。它们成功地将谷歌的Bert模型数据压缩到原来大小的1/15,仅占用1.2MB空间,而且质量仅下降4%。但是,这种压缩也带来了一定的延迟。


总的来说,苹果正在努力解决模型领域的一个核心问题:随着模型规模的不断扩大,其性能和实用性也有所提高,但这也伴随着体积的增加、用电量的增加和启动速度的下降。和许多其他企业一样,苹果正在寻找在这些方面找到完美的平衡点,并努力探索实现这一目标的最佳途径。


Siri更强 感知器=手机自行操作?


让我们想象一下这些技术将如何与苹果正在开发的其他功能密切相关。想象一下,一个真正能理解你需求的Siri,再加上一个能感知和理解屏幕上所有信息的设备,将是一部真正能自己操作的手机。苹果不需要深度整合每一款产品,只需要简单的操作应用,自动点击正确的按钮即可。


需要重申的是,这一切还只是一个研究阶段。但如果这些技术能够从今年春天顺利应用到实践中,无疑将是划时代的技术突破。我认为,在今年的WWDC中,我们将见证苹果在人工智能领域的一系列重磅发布。


蒂姆·库克·苹果CEO(TimCook)甚至在2月份的评论中透露了这一点,并在最近的财务报告电话会议上进一步确认了这一期望。有两件事已经很清楚了:一是苹果在人工智能领域的竞争日益激烈,二是这项技术可能会给iPhone带来全面的创新。那时,你甚至可能会开始愿意经常使用Siri!那将是苹果取得的巨大成就。


本文来源于“腾讯科技”,编译:金鹿,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com