大型模型out,小型模型(SLM)爆红,撕开99%的企业市场?
对于猎豹移动CEO傅盛来说,他今年最想要的一件事,正在成为一种趋势——小模式逐渐成熟,成为企业落地商业化的主力军,这让他非常高兴。
也许每个人都会困惑,大模型(LLM)在淬火的当下,什么是小模型?(SLM)?当前,市场通常将参数规模远低于GPT-4或Llama-13B的千亿大语言模型,一般参数仅为1.5。B、3B、7B模型叫做小型模型。
要说现在的小模型有多火,只是7月下半月,四家科技公司纷纷推出了自己的小模型。
Hugging Face 推出了高性能的小型语言模型 SmoLLM,包含 135M、360M 和 1.7B,能直接在浏览器中运行;
OpenAI GPT-4o随后发布。 mini,GPT-3.5 Turbo已经成为历史;
Mistral AI 推出了与英伟达合作的拥有。 12 亿参数 Mistral Nemo,128K多语言支持, 前后文,性能优于L3。 8B和Gemma 2 9B;
苹果也不甘示弱,发布了70亿参数的小模型。 DCLM-7B,并立即将其全部开源。
如果把时间线往前推到上半年,可以发现小模型市场已经开始“神仙打架”了,比如微软4月份发布了Phi-3。、Gemma-7B在谷歌2月发布。
六款知名小模型半年发布,行业内挂起了小模型飓风。
而且以前国内小模型的忠实粉丝,大概只有猎豹移动。 2023年猎豹不能直接发送中小型Orion-14B,不同于其他大型厂商有大小系列模型覆盖,适用于公司私有化模型落地。
尽管小型市场竞争并不激烈, 前集网技术主管,小晨科技主管, 创始人 剻 义刚告知 鲸哥: 公司为海外客户提供私人大模型和服务。 GPT-3.5是最常见的模型 turbo,国内的百度文心比较多。
如今,无论是GPT3.5还是GPT-4,都发生了巨大的变化,这些参数小、能力大的小型模型,凭借超高的性价比,一度成为市场的新宠。2024年是SLM元年吗?
参数不如大模型,小模型为什么会火?
Scaling Law(规模法则)在信念下,一直朝着万亿大模型进军的科技巨头纷纷转向小模型跑道。在市场上,可能有三个主要原因:
第一个主要原因是大模型太贵了。
对开发者来说,训练大模型和烧钱没什么区别。义刚说:“好的大模型也很贵,GPT-第四,GPT-3.5的使用成本是10倍。
最先进的大型模型,这么贵的原因,首当其冲的就是硬件训练费用,GPU、基本的军备是TPU和CPU集群。OpenAI使用了25,000个A100芯片训练GPT-4,之后马斯克宣布将使用10万元H100组成一个非常AI的训练集群。此外,还有能源消耗,数据显示,美国AI数据中心的用电量足以点亮整个纽约市。另外,人工成本、训练数据成本也是一笔不小的开支。
而且由于模型参数值呈指数级增长,训练费用也急剧上升。AnthropicCEODario Amodei在一个播客节目中说,目前正在开发的人工智能模型的实践成本高达10亿美元。但是,未来三年,AI模型的培训成本将上升到100亿美元甚至1000亿美元。GPT-4o的开发成本只有1亿美元,不值一提。
AI模型的主流练习和推理费用
这一巨大的成本负担,让巨头们纷纷放下参数,投身于小模型。
小型语言模型可以理解为大型语言模型的浓缩版,参数少,设计精巧,自然需要较少的数据、训练时间和硬件成本。
举例来说,可能只关注法律问题的小模型,参数不到100亿,那么它的训练费用一般不到1000万美元。
而且小模型的性价比不仅体现在训练端,对用户来说也是如此。
由于小模型训练费用低,而且在相应的过程中消耗的算率较低,所以小模型的应用价格也显得更加贴近百姓。
现在OpenAI的GPT-4o百万Tokens输入输出价格分别为5美元和15美元,而15美元,GPT-4o 百万Tokensmini的输入价只有15元,导出价只有60元,价格下降了96%。~97%。
从Artificialialia 在Analysis的统计中,可以清楚地看到大模型和小模型之间的成本差距。OpenAI CEO 对于这一点,山姆奥特曼的描述是:通向智能的成本「too cheap to meter」(便宜到无法测量)。
其次,除了便宜之外,小模型的性能也已经满了。
GPT-4o是最新发布的 mini,在lmsys(评估列表)的较量中,不仅与GPT-4o的满血版并列第一,而且Claude也是第一, 强大的对手,如3.5,被甩在后面。
lmsys的排名机制是用户自己提问,随机选择两个模型进行一对一的比赛。这种机制有效防止了模型通过“做题”获得虚拟高分,主要是推动一个真实性。
结果并不代表一切,实际使用体验也是非常有效的。
根据OpenAI发布的例子,GPT-4o mini已经与Ramp、超人等公司合作,反馈发现,当从收据文档中获取结构化数据,或者在提供过程历史记录时,生成高质量的电子邮件响应等任务时,GPT-4o 在GPT-3.5.5中,mini的表现明显优于 Turbo。
更加令人期待的是,GPT-4o mini 的API 目前已经支持文本(并且大大提高了非英文的效率)和视觉,未来还将支持文本、图像、视频和音频输入输出。
不只是GPT-4o mini,其它几个小模型也是百花齐放。
评价主流小模型价格能力评价
被称作「欧洲版 OpenAI」的 Mistral AI Mistral的小模型 NeMo,Gemma在综合性能方面也在多项基准测试中被击败 2 9B和Llama 3 8B。而且这个模型是专门为全球多语言应用而设计的,在英语、法语、德语、葡萄牙语、中文等方面尤为明显。
这一次,苹果推出了DCLM-7BM 与Mistral-7B和Llamamamamamamamamat相比,模型在MMLU基准上的5-shot精度达到64%。 3 8B相当,但计算量只有后者的六分之一。在53个自然语言理解任务中,它的平均表现也可以与Llama 3 8B相媲美。
另外,苹果这波格局一把。不但模型本身是开源的,甚至连训练数据集都一起公开,让人们能完全重现自己的工作。

除了性价比杠杆之外,小模型还以小巧的身姿进入了更多的使用场景。
大型模型在使用场景中有很多局限性。例如,智能手机、物联网设备等边缘设备通常具有有限的计算能力和存储空间,无法承载大型语言模型。此时,小模型可以完美嵌入。
例如,即时图像分析、语音识别和动态推荐系统等对实时性有严格要求的应用范围。由于参数少,小模型可以快速推理,以极短的延迟满足用户的即时需求。
性价比高,为什么现在小模型爆炸?
小模具有这么多优点,为什么巨头们现在才开始“好香”翻身?
Open OlivierAI商品主管 Godement解释说,这只是一个“简单优先”的问题。在此之前,公司专注于GPT-4这样的大型模型,随着时间的推移,OpenAI注意到了开发者对小型模型的需求。
但也有观点认为,大型模型是通往小型模型的唯一途径。。
大型模型的练习就像海绵吸水,尽可能包含所有的数据和信息。这样做有好有坏。在海量数据的支持下,大型模型可以更好更准确地处理新的和新的任务,但也可能因为学习太多而产生不同知识的重叠、混合和冲突。
小模型站在大模型的肩膀上进一步优化。小模型接收的数据是超大模型清洁的优质数据。例如,GPT-4o 用GPT-4清洁mini练习的数据。
而且这种先做大模式,再进一步减肥的训练模式逐渐成为一种新的趋势。科技巨头们不再一味追求大,而是追求完美。
OpenAI首席执行官Sam于2023年4月执行。 Altman宣布了大型AI模型时代的结束。他指出,数据质量是AI训练的关键成功因素,关键问题是人工智能系统如何从更少的数据中学到更多的东西。而且这个观点也是微软,Hugging 其他玩家,如Face。
然而,这种不断精简和优化的过程将不断形成一个积极的循环。每一代模型都会帮助生成下一代的训练数据,直到获得“完美训练集”。
未来,与阶梯式上涨的小模型质量形成对比的,将是持续下跌的小模型价格。
傅盛曾在WAIC上说:“每年1000亿参数模型的私有化授权费是几千万,今天应该还是。私有化部署后,购买服务器的最低成本为160万元(当时的价格)”。
大模型太贵了。义刚还告诉AI鲸选社,他们现在的私有部署一般是40万到50万,基本上不会为了成本做微调。作为落地服务提供商,他们赚的不多,大部分是大模型公司的授权费。
现在企业使用大型模型的成本可能会大大降低。AI Grant 两个合伙人 Daniel Gross 和 Nat 在采访中,Friedman, 在质量不变的情况下,LLM成本每年都能降低。 90% 的情况。
OpenAI也确实基本上证明了这个问题。OpenAI 基本是以每 3 一个月作为一个周期,总会有至少一个模型成本下降。 60% ,或者至少降低成本 60% 在这种情况下,质量更高。而且一个模型基本上一年要经历两次降低成本,每次降低成本。 60%,两次之后,正好比以前减少了。 90% 上下。
GPT-4o Mini就是这一逻辑效果的体现。并且随着高质量的数据和训练方法的改进,这些小模型的一些能力甚至更加突出。
如同 AI Grant 所以,没有理由认为较小的模型不会有更好的表现。”最近这些 9B 模型已经让我们震惊了,没有任何数学证书。 3B 不能达到同样的效果。假如 3B 做到了,没有理由不在当地工作,那么当时除了一些耗电问题之外,我们更多的肯定是在做当地的处理。 云模型的路由。
换句话说,未来会出现越来越多更简洁、更高效、更便宜的小模型。未来,就像OpenAI创始成员和研究科学家安卓一样。 Karpathy所说的话,未来大模型的尺寸竞争趋势将会逆转,尺寸竞争将会退后一步。
公司最喜欢落地,小模型加速商业化
傅盛在过去一年中常说:“公司专用大模型,百亿参数就够了。”
但实际上,2023年将小模型向垂直方向微调,创造出堪比大模型的效果,效果并不好,百亿参数也不够。
但是现在情况不同了,gpt-4o-mini 许多场景不需要微调,也不比Chat-4 turbo很差。
AI企业家的反馈:“gpt-4o-mini 效果确实不错。第一,速度特别快,比例特别快。 4o 要快得多,几乎不需要等待,就能读出结果。第二是实际表现, GPT-4o-mini 现在只有在复杂的场景中才需要借力, 只有比较复杂的编程没有完成。“ 每天都需要搜索引擎 blog 或者教程可以解决的任务,基本GPT-4o-mini 一切都能做得很好。 ”
小模型在模型托起下,以更轻的姿态落地。HuggingFace CEO Clem Delangue 甚至指出,多达 99% 可以通过应用场景 SLM 来解决,并且预测 2024 年将是 SLM 元年。
义刚说,最近有一家人之前在医疗和房地产领域做过用户,都是大模型。4o-mini发布当天,他看了资料,比较了一下。 GPT-3.5 更好的性能,更长的导出,多模式支持Turbo。 ,低成本,更好的非英语语言支持,感觉是天赐良机。
"最近谈到的一位招聘客户,估计是用4o。-mini。“生意有望做得更好,也让他笑得更多。
但是他也提到,看行业分析,未来大模型、小模型将与落地公司的部署密切相关。
也就是说,模型生态正朝着流动、精确的方向发展。而且从使用场景来看,大模型、小模型也会有明确的分工。
大模型将继续在需要一般知识基础和高级思维能力的领域发挥核心作用;小模型以其轻巧的体型和高效的性能,在成本敏感、响应时间要求严格的应用场景中大放异彩。
就像Forrester一样 Rowann资深AI分析师Research Curran描述说:“跑车并不总是需要的,有时候小货车或者皮卡更合适。未来的模型应用不会单一,而是根据不同的需求选择最合适的工具。”
即使在未来,任务上下级合作也会出现在大、小模型之间。

DeepMind、最近,普林斯顿大学和斯坦福大学的研究人员提出了一个名字。 LATM(LLMs As Tool Makers)创新框架,即让大型语言模型生成自己的软件工具来处理新的任务。
它带来了一种全新的大小模型分工方法。需要高韧性计算率的工具制造过程可以分配给功能齐全、资源密集的模型,例如 GPT-4;并且将相对简单的工具过程分配到轻量级、经济高效的模型,即小型模型。该模型不仅降低了成本,而且保证了性能。
如今,在市场上,99%的公司实际上并没有安排大模型进入业务。小模型流行后,大模型会被推迟。这个巨大的市场会在2024年被撕裂吗?
本文来自微信微信官方账号“AI鲸选社”,作者:竹芒、杨晓鹤、36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




