第一款Meta多模态Llama 3.2开源,1B小羊驼宝宝,跑进手机
多模态Llamamamama是Meta理解图文的第一个。 3.2来了!这一次,Meta除了11B和90B2的基本版本外,还推出了只有1B和3B的轻量级版本,适合ArmCpu,手机和AR眼镜边缘设备都可以使用。
Llama 3.1超大杯405B刚刚过去2个月,Llamama全新升级。 3.2来了!
这一次,最大的亮点是,Llama 在羊驼家族中,3.2成为第一个支持多模态能力的模型。
在Connect会议上,新发布的Llama 3.2包括两个版本的主要视觉模型:小型(11B)和中型(90B)。
正如Meta所说,这两种模式可以直接替代相应的文本模型,并在图像理解任务中击败闭源Claude。 3 Haiku。
即使是90B版本也击败了GPT-4o。 mini。

甚至Jim,英伟达高级科学家。 Fan不禁称赞,在轻量级模型中,开源社区整体上并不落后!


与此同时,Meta还推出了1B和3B2个轻量级纯文本版本,以适应边缘计算和智能终端,可支持128K前后文本。

不要看参数少,1B/3B在总结摘要、指令遵循、重写等任务上表现出色,并专门为ArmCpu做了改进。
LeCun兴奋地说,「可爱的大羊驼宝宝来了」!

Llamama首席技术官 发布3.2,总结了两大亮点:
第一个可以识别图像和理解文本的多模式模型。最重要的是,它可以与闭源模型相媲美。
超轻1B/3B模型,解锁更多智能终端概率

有些网民评论说,这可能是改变游戏规则的进步,边缘设备AI正在成长。

01 能力一览
11B和90B不仅支持图像推理场景的文档级理解、图像描述和视觉定位任务,还可以根据当前图表进行推理和快速回答,包括图表和图形。
举例来说,你可以问「去年哪个月的销售额最好?」,Llama 3.2将根据当前图表进行推理,并立即给出答案。
轻量级1B和3B模型不仅可以帮助多语言文本生成工具等调用能力出色,还可以有很强的隐私保护,数据永远不会离开设备。
本地运行模式之所以受到大家的青睐,主要有以下两个优点:
提示和反应能给人一种瞬间完成的感觉。
应用程序可以清楚地控制哪些查询留在设备中,哪些可能需要由云处理。

02 性能评估
数据显示,Llama 在图像识别等任务中,3.2视觉模型和Claude 3 Haiku和GPT-4o mini不相上下。
在遵循指令、总结、提示重写和工具使用等任务方面,3B模型的性能优于Gemma。 2 2B和Phi 3.5 mini;而且1B模型相当于Gemma的旗鼓。


03 视觉模型
Meta作为首批支持Llama视觉任务的模型,为11B和90B打造了全新的模型架构。
就图像输入而言,训练了一组适配器的权重,将预训练的图像编码器集成到预训练的大语言模型中。
具体而言,适配器:
它由一系列交叉注意层组成,负责在大语言模型中输入图像编码器的表示。
通过对文本-图像对齐的训练,可以实现图像表达与语言表达的对齐。
Meta将在适配器训练过程中更新图像编码器的参数,但不会更新大语言模型的参数。
换言之,模型纯文本能力不会受到任何影响,而开发者也可以将之前部署的Llama 用Llamama无缝替换3.1 3.2。

以下是具体的练习过程:
第一,Llamama预训练 在文本模型中加入图像适配器和编码器,并在大规模噪声图像-文本中对数据进行预训练。
接着,在中等规模的高质量领域,以及知识增强的图像-文字,再一次练习数据。
然后,在后期训练阶段,通过监督微调、拒绝采样和直接偏好提高,采用类似文本模型的方法进行多轮对齐。并添加安全减少数据,确保模型导出安全实用。
在此期间,模型采用的高质量微调数据来源于生成数据生成技术-使用Llamama 在领域图像的基础上,3.1模型对问题答案进行过滤和增强,并使用奖励模型对所有备选答案进行排序。
最终,我们可以得到一系列可以同时接受图像和文本提示的模型,并且可以对其组合进行深入的理解和推理。
对于这一点,Meta自豪地说:「它是Llama模型向更丰富的AI智能体能迈进的又一步。」。
获得全新的Llama Meta助手3.2加持。 AI,尤其是在视觉理解方面。
举例来说,上传一张切好的生日蛋糕图片,并询问它的配方。
Meta AI会给出手把手的教程,从配料到加工方法,一应俱全。

或你发给它一张小羊的照片,并要求把它放在冲浪板上。
过了一会儿,一只山羊站在冲浪板上,画得很好。

04 轻巧模型
采用修枝方法(pruning)和蒸馏(distillation)通过这两种方法,Meta将全新的1B和3B模型转变为首批轻量级Llama模型,可以高效地适应设备。
修剪能减少Llama的规模,并且尽可能地保留知识和性能
在这里,Meta使用了Llama。 3.1 80亿参数模型是一种结构化修剪的方法。也就是说,系统地删除网络的一部分内容,调整权重和梯度的范围,从而创建一个更小、更有效的大语言模型,同时保留原有网络的性能。
修枝后,需要使用知识蒸馏来恢复模型性能。
知识蒸馏就是让更大的网络给更小的网络教授知识。
也就是说,较小的模型可以通过教师模型的指导来获得比重新开始训练更好的性能。因此,Meta在预训练阶段融入了Llama。 3.1 logits8B和70B模型(模型导出的原始估计值),并且将这些较大的模型导出作为token级别的目标。

在后期训练阶段,Meta采用了Llama。 类似的方法3.1-最终的聊天模型是在预训练大语言模型的基础上进行多轮对齐。
其中,每一轮都包括微调监管。(SFT,Supervised Fine-Tuning)、拒绝取样(RS,Rejection Sampling)并且直接喜好提升(DPO,Direct Preference Optimization)。
在此期间,Meta不仅将模型的前后长度扩展到128K token,此外,它还利用精心筛选的生成数据和高质量的混合数据来优化许多能力,如总结、重写、指令跟踪、语言推理和工具使用。
Meta还与高通和高通为了方便开源社区更好地基于Llama进行创新,(Qualcomm)、MTK(Mediatek)与Arm有着密切的合作。
值得注意的是,Meta此次发布的权重是BFloat16格式。



05 Llama 发行版Stack
Llama Stack API是定制Llama大语言模型并构建AI智能体应用的标准化接口,用于标准化工具链部件(如微调、生成数据生成等)。
自今年7月Meta提出相关意见征求以来,社区的反应十分热烈。
现在,Meta正式推出Llama Stack发行版-可以包装多个API提供商,可以很好地协调工作,为开发者提供单个连接点。
这种简单而一致的体验使开发者可以在包括当地环境、云端、单节点服务器和智能终端在内的各种环境中使用Llama大语言模型。

完整的发布内容包括:
Llama CLI:用于构建、配备和运行Llamama 发行版Stack
多语种客户端代码:包括Python、Node.js、Kotlin和Swift
Docker器皿:用于Llamama API供应商Stack发行版服务器和AI智能体
多种发行版:
Llama,单节点 通过Meta内部实现和Ollama提供Stack发行版:
云Llama 发行版Stack:AWS、Databricks、提供Fireworks和Together
Llama设备端 PyTorchStack发行版: 在iOS上实现ExecuTorch
Llama本地部署 Dell支持Stack发行版:

06 系统安全
这次,Meta主要更新了两次模型安全:
1.Llama Guard 3 11B Vision
它支持Llama 全新图像理解3.2的能力,并且可以过滤文本 图像输入提示词或对这些提示词的文本输出响应。
2. Llama Guard 3 1B
这是基于Llama的 3.2 修枝量化后,1B将模型尺寸从2,858MB缩小到438MB,使布署效率达到前所未有的高度。

现在,这些新的解决方案已集成到Meta的参考实现、演示和应用程序中,开源社区可以立即开始使用。
参考资料:
https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
本文来自微信微信官方账号“新智元”,作者:新智元,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




