大型模型的风向发生了变化,OpenAI苹果调头。
生成AI似乎有一个无形的规律:每隔一段时间,就会发生一个令人瞠目结舌的大型“碰车”事件。
就在今年,谷歌Gemini。 1.5 Pro模型发布OpenAI视频生成模型Sora推出,OpenAI GPT-4o发布了谷歌I/O开发者大会,让全世界的围观者都能闻到大模型争雄的浓浓硝烟味。
假设之前的各种巧合都有OpenAI故意截胡谷歌的嫌疑,那么上周4天内Hugginginging Face、OpenAI、Mistral、苹果连珠炮相继发布了自己最强的轻量级模型,无疑是AI产业最新趋势的显形。
现在,AI大模型不再只是速度。“发展壮大”,同时也剧烈地卷起“做小做精”。
超越GPT-4o不再是唯一的KPI。大模型进入争夺市场的关键游戏期。为了打动用户,我们不仅要依靠技术水平,还要证明我们自己的模型更划算。——在相同性能下,模型更小,在相同参数下性能更高,更经济。。
事实上,这种“大模型反卷微型化”的技术趋势,在去年下半年就开始考虑了。
游戏规则的改变者是两家公司。一个是法国AI企业Mistral AI,Llamamamamamama去年9月以70亿参数的大模型击败。 两个技能惊人,在开发者社区一战成名;一个是中国AI企业面壁智能。今年2月,更集中的端侧模型MiniCPM推出,超过Llamama,参数只有24亿。 2 13B的性能。
两家创业公司在开发者社区都很有名,很多模式都登上了开源热榜。尤其是从清华大学自然语言处理实验室孵化出来的面壁智能,今年其多模式模型被美国顶尖大学团队“套壳”引起轩然大波,面壁的原创工作得到国内外学术界的认可,让国内开源AI模型骄傲不已。
苹果也从去年开始研究能够更好地适应手机的端侧模型。OpenAI,一直走粗放暴力扩张路线,是一个相对意想不到的新人。上周,轻量级模型GPT-4o mini,代表大模型一哥主动走下“神坛”,开始适应行业趋势,试图用更便宜、更容易获得的模型来煽动更广阔的市场。
大模型“微型化”的关键一年将是2024年!
大模型时代的“摩尔定律”:高效率是可持续的
目前大模型研发正处于一种惯性:大力出奇迹。
2020年,OpenAI的一篇论文验证了模型性能与规模密切相关。只要你吞下更多的优质数据,训练出更大的模型,你就能获得更高的性能。
顺着这条简单但有效的道路,近两年来,世界掀起了一场追求更大模型的快速竞争。这就埋下了算法霸权的隐患。只有资金和算率充足的团队才有资本长期参加比赛。
OpenAI去年 首席执行官萨姆·阿尔特曼曾经透露,训练GPT-4至少要花很多钱。1亿美金。即使是财大气粗的科技厂商,在高利润商业模式尚未延伸的前提下,也难以承受长期不计成本的投资。生态环境不能容忍这种无底洞的烧钱游戏。
在肉眼可见的情况下,顶级大语言模型之间的性能差距正在缩小。GPT-虽然4o排名第一,但是和Claude 3 Opus、Gemini 1.5 Pro的基准测试分数之差没有断层。在某些能力方面,数百亿的大型模型甚至可以取得更好的性能。模型的大小不再是影响特性的唯一决定性因素。
并非顶级大模型缺乏吸引力,实在是轻量级模型更具性价比。
下图显示了AI工程师Karina 今年3月底,Ngugen在社交平台上分享了一张AI推理成本趋势图,清晰地描绘了2022年以来大语言模型在MMLU标准上的性能及其成本之间的关系:随着时间的推移,语言模型获得了更多的MMLU精度成绩,相关成本大幅下降。新型号的精度在80%左右,而且成本可以比几年前低几个数量级。
这个世界变化很快,近几个月又出现了一波经济高效的轻量级模型。
AI技术大神Andrejrej的竞争正在加剧-后退! Karpathy打赌:“我们将看到一些非常非常小的模型‘思考’非常好和可靠。”
模型能力÷参与模型参数=知识密度,这一衡量层次可以用来代表相同的参数规模模型,并且具有很强的智能性。GPT-3模型于2020年6月发布,参数达到1750亿次。今年二月, 面壁智能MiniCPM-2.4B模型具有相同的特性,参数规模已降至24亿,相当于提高了知识密度。86倍。

清华大学计算机系长聘副教授、面壁智能首席科学家刘知远根据这些趋势,最近提出了一个有趣的观点:大型时代有自己的“摩尔定律”。
具体来说,伴随着数据-算力-算法协同发展,大模型知识密度不断提高,平均每8个月翻一番。。

▲通过OpenCompass列表的变化,可以看到小参数,高性能模型成为趋势
通过提高芯片上的电路密度,将实现相同计算能力的计算设备从几个房间安装的超级计算机演变为可以放入口袋的手机,大模型的发展将遵循类似的规律。刘知远将他提出的指导规律命名为“面壁定律”。
以这种趋势下来,训练一个1000亿参数模型,8个月后可以实现500亿参数模型,8个月后只需要250亿参数就可以实现。。
二是兵分多路:闭源价格战如火如荼,开源中美欧三足鼎立。
现在进入大模型轻量化比赛的玩家兵分多路。
OpenAI、GPT-4oopic,谷歌,Anthropic都走闭源路线。、Claude 3.5 Sonnet、Gemini 1.5 Pro等旗舰模型控制着最强的性能档,这些模型的参数值高达千亿甚至万亿。
轻量级模型是其旗舰模型的简化版本。OpenAI上周更新后,GPT-4o 超越Gemini的mini超越了Gemini Flash和Claude Haiku的性能已经成为市场上性价比低于10B的最佳选择,To C替代GPT-3.5供用户免费使用,ToB大幅降低API价格,降低了选择大型技术的门槛。

Andriy《机器学习工程》作者 GPT-4oov是根据价格推断的。 Mini参数值规格在7B左右。面壁智能CEO李大海推断GPT-4o mini是一款专家众多的“宽MoE”模型,而不是一个侧面模型,它以高性价比的云模型定位,大大降低了大模型落地的行业成本。
开源轻量级模型阵营更大,中美欧各有代表性玩家。
国内阿里、面壁智能、商汤、上海人工智能实验室等都开源了一些轻量级模型。其中,阿里Qwen系列模型是对比轻量级模型基准测试的常客。面壁智能MiniCPM系列模型也是用小参数跨级秒掉大模型的典范,在开源社区备受好评。
面墙智能是一支前瞻性很强的创业团队。2020年,它率先走国内大模型路线,很早就开始探索如何利用高效微调技术降低培训成本。去年年初,它开始对AI进行。 在8月份,Agent的探索和发布了超过1000亿的模式模型,将大模型和Agent技术融入金融、教育、政务、智能终端等场景,并在年底制定了端云协同方向,接着,今年密集推出了多种高效、节能的端侧模型。
在过去的半年里,MiniCPM已经发布了底座模型。 2.4B、MiniCPM 1.2B,MiniCPM-2B-128k长文本模型,MiniCPM-V 2.0、GPT-MiniCPM-Llama34V性能水平-V MiniCPMini混合专家模型-MoE-8x2B等。到目前为止,MiniCPM系列的整体下载量已经达到了近95万颗星标。
该企业还通过高效的稀疏架构完成了更高的MiniCPM能效。-S 1.2B模型:MiniCPMMiniCPM,知识密度达到相同规模。 2.57倍,1.2B,Mistral-7B的12.1倍,进一步诠释了“面壁定律”,大大降低了大模型推理的成本。

▲智能MiniCPM系列模型快速迭代,提高知识密度
在美国轻量级开源模型阵营中,大型科技公司参与度较高,包括Meta、微软,谷歌,苹果,Stability AI等,并高频上演“后浪将前浪拍到沙滩上”的情节。
Hugging 上周,Face还推出了135M、360M、与同等尺寸模型相比,1.7B三个参数规格的SmolLM模型具有竞争力,其中1.7B版本在多个基准测试中的分数超过了微软Phi-1.5。、GobileLLM-1.5B和阿里Qwen2-1.5.B。
以“封闭”著称的苹果,在AI领域却是著名的开源派:Ferret多模式模型于去年10月发布;4款OpenELM预训练模型于今年4月发布,参数从27亿到300亿不等;还有最新的DCLM模型,其中6.9B版本性能超过Mistral MMLU版本7B,1.4B超过了SmolLM-1.7.B。

▲与闭源模型(叉)和其他开源数据集和模型(圆圈)相比,苹果的DCLM-Baseline训练模型显示出良好的性能。
代表欧洲玩家的Mistral是非法国大型独角兽。 AI莫属。Mistral上周刚刚发布。 Nemo 支持128k前后文处理的12B小杯模型,性能超过谷歌Gemma 2 9B和Llama 2 推理、世界知识和代码能力都是同量级开源模型中最强的。
这一进步正在展示大模型小型化的应用潜力。
Hugging 联合创始人Face兼CEO Clem “Delangue预言道:”一个更小、更便宜、更快、更个性化的模型将覆盖99%的用例。每天上班不需要一个100万美元的F1方程式,也不需要一个银行客户聊天机器人来告诉你人生的意义!
大模型界的省钱小能手,是怎样炼成的?
大型反卷微型化,是AI普惠的必然趋势。
并不是所有的应用都应该使用性能最强的大型模型。商业竞争考虑性价比,注重物美价廉。不同的场景和业务对导出质量和成本效率的需求大不相同。
超大型模型会给开发者带来很大的学习成本,从训练到部署都会有很大的麻烦。更精简的模型可以降低投入产出率,用更少的资金、数据、硬件资源和训练周期构建有竞争力的模型,从而降低基础设施成本,有助于提高可访问性,加快模型部署和应用。

▲按照苹果DataComp-LM论文,模型参数越少,训练所需的计算能力和时间越少。
对于特定的应用程序,轻量级模型需要更少的数据,因此可以更容易地微调特定的任务,以达到满足要求的性能和效率。由于结构更加简洁,这种模型需要更少的存储容量和计算能力。对端侧硬件进行优化设计后,可以在笔记本电脑、智能手机或其他小型机器上本地运行,具有延迟低、易于浏览、隐私安全保护等优点,确保个人数据不会传输。
虽然轻量级高性能模型很小,但要做到“利用有限的计算率和能耗,将知识浓缩到更小的参数模型中。",技术门槛不低。
它的训练过程是先增大,再减小,知识的本质是从复杂的大模型中蒸馏出来的。例如谷歌的小杯多模型Gemma-2,是用27B模型知识提炼出来的。
但是在具体的技术路线上,不同的玩家有不同的做法。
例如在训练数据另一方面,Meta豪气地给了Llama 3喂了15T tokens训练数据。微软、苹果等。专注于提高训练数据集和数据方法的创新,而微软Phi-3只使用了3.3。T tokens,苹果DCLM 7B仅用了2.6T tokens。基于苹果DataComp-LM论文,在计算和性能之间提高训练数据集能平衡,降低训练成本。Mistral上周新发布的 通过使用先进的Tekken标记器,NeMo可以比以前的模型更有效地压缩文本和代码。
“变小”更重要架构创新。举例来说,苹果OpenELM模型面向硬件瓶颈进行模型分层精调设计,以提高端侧的运行效率;MiniCPM-S 1.2B高效稀疏模型完成了近88%的稀疏,将整个链接层的能耗降低到84%,与相应的密集模型相比,解码速率提高了2.8倍,性能不会受损。

大型模型是一个需要探索的系统工程。人工智能专业化“方向,也就是通过算法、结构、数据治理、多模式融合等技术方案的不断迭代,训练模型更加可靠、可预测、高水平。,为了不断提高大模型的知识密度。
为了实现快速练习和模型优化,需要建立高效的生产线,既要构建全流程工具套件平台,又要形成高效、可扩展的模型训练策略。举例来说,面壁模型沙盒机制采用小模型预测大模型性能,大模型共享超参数方案,实现模型能力的快速形成。
▲MiniCPM 1.2B和MiniCPM-S 1.2B推理解码速率实测对比
为了加快大模型赋能智能终端,面壁智能最新开源了行业内第一个开箱即用的端侧大模型工具集。 “MobileCPM ",并提供保姆式教程,帮助开发者将大模型一键集成到App中。
▲面壁智能端侧大模型工具集集 “MobileCPM ”
今年是从英特尔、英伟达、端边AI爆发的第一年,AMD、从AI巨头到高通等芯片巨头 PC、大型智能手机制造商正在推广丰富的终端AI应用。终端制造商开始与通用模型制造商合作,以促进轻量级模型在广泛的终端设备上着陆。
随着端侧芯片性能的提高和模型知识密度的提高,端侧设备的本地运行模型越来越大,越来越好。现在GPT-4V可以在端侧运行,刘知远预测在接下来的一年里,GPT-3.5水平模型可以放在一边运行,在接下来的两年里,GPT-4o水平模型可以放在一边运行。。
结论:打开不疯狂烧钱的大模型比赛。
在科技世界里,越来越小、越来越便宜、越来越实用的历史潮流总是重现。在大型机器时代,计算机是一种只有富人和精英才能接触到的高科技奢侈品。进入小型机时代,随着技术的进步,计算设备越来越便携易用,PC和手机进入了普通大众的日常工作和生活。
就像我们需要一台计算能力巨大的超级计算机,一部普通人可以塞进口袋的手机,一个生成AI时代需要完美智能的大模型,一个离客户更近、成本效率更高、能够满足特定应用需求的经济模型。
OpenAI GPT-4o仍然站在最强AI模型的山顶,但它不再像以前那样无敌,许多GPT-4级模型已经实现了类似的性能。与此同时,更紧凑、更高效的大模型正在挑战“越高越好”的概念。“小而大”的新趋势有望改变AI的发展模式,为AI在公司和消费环境下的落地开辟新的可能性。
小规模转型意味着AI行业的重大变革,大模型竞争逐渐从努力提高性能转变为关注现实世界更详细的需求。在这股热潮中,以面壁智能为代表的中国开源力量正在蓬勃发展。通过一系列技术创新,大模型知识密度定律以更经济可行的方式得到验证,最终推动大模型在实际应用场景中的落地过程。
这篇文章来自“智物”,作者:ZeR0,编辑:漠影,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




