省心更应该省钱,MIT亲自下场,拒绝“参数内耗”

2024-04-22

在人工智能领域,大型模型因其卓越的理解和生成自然语言能力而备受关注。通过捕捉和再现人类语言的复杂性和微妙性,为用户提供了与机器自然交谈的概率。


然而,这些模型背后的培训过程因其成本高而备受争议,不仅涉及资金投入高,还涉及巨大的计算资源和时间消耗。此外,一些研究指出,训练一个先进的模型可能需要几个星期,并且需要1000多个甚至上万个GPU的并行计算。再加上昂贵的硬件支持,只有高性能GPU和其他特殊硬件的成本才能达到数十万甚至数百万美元。对大多数研究机构和个人来说,各种规模的计算资源是无法承受的。


这种资源密集型的发展方向导致资源获取不平等。由于资本和资源雄厚,大型科技公司可以更容易地获得和维护这些高性能的计算资源。相比之下,由于资金和资源的限制,小型研究机构和个人往往很难参与大型研究和开发。因此,如何降低大模型的资源门槛,使其更加普及和可持续,已经成为当前研究和实践中的一个重要问题。


近日,MIT、全华班团队,如普林斯顿等研究机构,带来了全新的解决方案——JetMoE-8B,该模型以不到100,000美元的预算完成了训练,并且涵盖了125,000亿个token和30,000个H1000个。 GPU小时。


采取多种措施,原地起飞成本效率


JetMoE-8B的关键特征在于它采用了Sparsely。-gated Mixture-of-Experts (SMoE)结构。该结构通过稀疏激活机制,促使模型在处理输入时只激活必要的参数值,从而大大降低了计算成本。据悉,JetMoE-8B有80亿个参数,但在推理过程中只激活每个输入令牌20亿个参数,使模型在保持性能的同时,将会计成本降低约70%。


此外,JetMoE-8B的实践策略也颇具创新性。JetMoE-8B的练习遵循两个阶段的策略,包括1万亿个token用于大规模开源预训练数据集的练习,第二阶段用指数学习率下降的练习。


其中:


一级:预训练


预训阶段,JetMoE-8B使用了1万亿(1.25T)的token,来自多个高质量的开源数据集。它涵盖了从CommonCrawl中获取并通过MacroDatatatawl获取的数据。 Refinement (MDR) RefinedWeb管道处理数据,StarCoder训练数据,Dolma大型英语文本词库,The 与数学和编程相关的Pile和数据集。该数据为模型提供了丰富多样的语言和知识背景,有利于模型学习更广泛的语言模式和知识。


第二阶段:学习率衰减


第二阶段,模型训练采用指数学习率衰减策略。这意味着随着训练的进行,模型学习率会根据一定的指数函数进行调整,然后逐渐减少。这种策略有利于在练习初期快速学习和调整模型的权重,但在训练后期,模型参数值会通过降低学习率来细化,从而使模型更稳定地收敛到最优解。


具体来说,JetMoE-Warmup用于8B模型-Stable-Decay (WSD) 学习调度器,该调度器将训练过程分为预热阶段三个阶段:(warmup stage)、训练阶段稳定(stable training stage)和衰减阶段(annealing stage)。为了帮助模型快速适应训练数据,在预热阶段,学习率会逐渐提高到最高值。为了使模型在领先水平上进行学习,稳定阶段的学习率保持一致。最后,在衰减阶段,学习率会根据预定的指数函数进行衰减,以便在训练后期对模型进行详细的权重调整。


另外,R&D部门为JetMoE-8B模型使用了96个NVIDIA。 H100 由GPU组成的集群练习。H100 GPU是一种专门为AI和深度学习任务设计的高性能计算卡,具有很强的并行计算能力。通过将这些GPU组合成一个集群,JetMoE-8B可以同时处理大量的数据和计算任务,从而加快训练速度。


JetMoE-8B的另一个显著特点是它的开放性和易于浏览性。通过公开的数据集和开源训练代码,任何感兴趣的研究人员都可以浏览和使用这种模式。这一开放不仅促进了知识的共享,也为未来的研究与合作提供了基础。


得益于其高效的模型架构、精心挑选的数据、两阶段的训练策略以及强大的计算资源和开源社区的支持。各种因素共同促使JetMoE-8B在两周内完成训练,为控制成本带来新的思路和目标。这也降低了进入大型研究领域的门槛,促使更多的研究机构和个人参与这一领域的研究。


“卷”大小的时代已经过去,满足要求才是王道。


这是一个参数较少的模型,JetMoE-8B能更好地发挥高效率和速度优势,为技术创新提供强有力的支持。开发者可以在有限的资源下快速迭代和测试新的想法,这不仅加快了新技术的研发过程,也为市场上的创新应用提供了更多的概率。特别是由于这种高成本、高效率的R&D环境,小企业和初创企业可以探索和实现自己的创新理念,风险和成本更低。


参数规模并不是衡量模型价值的唯一标准,在模型主导的市场趋势下。事实上,随着物联网设备的普遍部署,对小参数模型的需求越来越大,可以在有限的资源环境中高效运行。这些设备一般对计算能力和存储空间有严格的限制,而小参数模型正好可以满足这些条件,实现快速响应和实时数据处理能力。


据悉,去年年底,Meta推出了Llama。 Llamamama模型的小版本 2 另外,谷歌还在2月推出了Gemma系列模型,法国AI公司Mistral也推出了Mistral。 7B模型。



针对特定应用场景的定制小参数模型,逐步成为研发的新趋势。研究人员专注于为特定任务量身定制轻量级模型。这些模型不仅可以保证高效率,还可以优化自然语言理解、图像识别等特定领域。这种有针对性的设计不仅提高了模型性能,而且使其能够更好地满足多样化的应用需求。


值得注意的是,小参数模型不仅在技术创新领域掀起了波澜,而且在商业模式和市场策略上也发生了深刻的变化。对于中小企业来说,他们不需要投入巨额资金就可以通过使用这些模型来提升自己的产品和服务。这种高成本、高效率的解决方案使其商业应用更加普遍和多样化。


在市场策略方面,小模型的推出也反映了公司对消费者需求的深刻理解。随着消费者对人工智能技术的理解和接受程度的提高,他们开始寻求更实用、更经济的AI解决方案。小模型正好满足了这个需求,提供了更经济的选择,同时保证了性能。


大型家庭认为AI技术越来越受欢迎和可访问,这也意味着AI的应用范围在不断扩大。随着技术的进步和模型的优化,未来市场上会出现更多轻便高效的模型,为用户提供更多的选择和便利。


本文来自微信微信官方账号“大模型世家”(ID:damoaihome),作者:兴哲,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com