苹果推出 300 十亿参数多模态 AI 大模型 MM1.5

2024-10-14

IT 世家 10 月 13 每日消息,苹果公司现已为其多模式大模式。 MM 推出 1.5 版本,这个版本模型是基于上一代的。 MM1 在不同的训练周期中,重点研究混合不同类型数据对模型性能的影响,继续延续数据驱动的训练原则。


现在已经发布了相关模型文档 Hugging Face 上,IT 家庭论文地址如下(点击此处浏览)。


提供这个版本的模型 10 亿 -300 超过亿种参数规模,具有图像识别和自然语言推理能力。苹果R&D人员在新版本中改进了数据混合策略,显著提高了多文本图像理解、视觉引用和定位模型(Grounding)以及多图像推理的优势。


参考论文,团队在 MM1.5 持续的预训练阶段引进了高质量的训练。 OCR 数据和合成图像描述显著提高了模型对包含大量文本的图像的理解能力。


此外,在监管微调阶段,研究人员分析了不同数据类型对模型性能的影响,改善了视觉指令微调数据的混合模式,从而提高了模型的效率。团队表示,即使是小型模型(10)、30 十亿参数版本)也可以表现出色。


值得注意的是,苹果此次还推出了专门用于视频理解的产品。 MM1.5-Video 移动终端操作界面模型及专用处理(UI)理解的 MM1.5-UI 模型,其中 MM1.5-UI 未来模型有望成为 iOS “苹果牌”在幕后 AI,它能处理各种视觉引用和定位任务,总结屏幕上的功能,或通过与用户的对话进行交互。


虽然 MM1.5 该模型在许多基准测试中表现出色。苹果团队仍然计划通过进一步整合文本、图像和用户交互数据,设计更复杂的架构来提高模型对移动终端的性能。 UI 加强“苹果牌”的理解能力 AI 的实力。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com