计算率不足,小模型成为AI模型发展的下一个方向?

04-29 10:02

在此期间,AI模型行业真的很热闹,新模型不断涌现。无论是开源还是闭源,成绩都在刷新。就在几天前,Meta上演了一场“夺回开源铁王座”的好戏。Llama发布 3 在许多指标上,8B和70B两个版本都超越了以前开源的Grok-1和DBRX,成为新的开源模型之王。


此外,Meta还表示,Llamamama未来将推出400B版本。 它的测试结果在许多方面都赶上了OpenAI闭源的GPT-4,让许多人大呼,开源版的GPT-4即将到来。尽管从参数来看,与Llama相比, 2,Llama 3并没有特别大的提高,但是在某些表现上,Llama 最小的8B版本都比Llama 2 70B要好。可以看出,模型性能的提高,并非只有堆参数这种做法。


01 Llama 第三,回到开源第一


“真的,当地时间4月18日,”·OpenAI"-Meta跑出了目前开源最强的大型Llamama模型。 3。这次Meta发布了两个开源的Llamama。 3 8B和Llama 3 70B模型。按照Meta的说法,Llamama这两个版本 3是目前同规模下性能最佳的开源模式。而且在某些数据方面,Llama 3 与Llamama相比,8B的性能 2 70B更强,要知道,两者的参数却相差一个数量级。


也许是因为Llamama才能做到这一点。 3是基于15T以上的练习效率高3倍。 与Llamamama相比,token训练 2数据集的7倍以上。在MMLU、ARC、DROP等基准测试,Llama 3 在九项检测中,8B领先于同行,Llama 3 同样,70B也击败了Gemini。 1.5 Pro和Claude 3 Sonnet。


尽管参数没有特别大的增加,但毫无疑问,Llama 3的性能取得了很大的进步,可以算是用类似的参数获得了更好的性能,这可能是在计算资源短期内无法满足更大规模计算的情况下做出的选择,但这反映出AI模型的研发不仅仅是积累参数的“大力创造奇迹”之路。


02 把大模型做成小正成行业共识。


实际上,Llama 三个开源王之间有两个,Grok-1和DBRX也致力于将模型做小。不同于以往的大模型,使用一种模型来解决所有问题,Grok-1和DBRX都采用MoE架构(专家模型架构),在面对不同问题时,调用不同的小模型来解决问题,从而保证答案的质量,同时节省计算能力。


而且微软也在Llama 3发布后不久,就出手截胡,展示了Phi-3系列小模型的技术报告。只有3.8B参数Phi-3-mini在这份报告中超过了Llamamama。 3 为方便开源社区使用,8B还专门将其设计成与Llama系列相兼容的结构。更加夸张的是,这款微软模型,也可以直接在手机上运行,经过4bit量化后的phi-3-mini。iPhone 14 pro和iPhone 苹果A16芯片15可以跑到每秒12。 token,也就是说,现在手机上可以在当地运行的最佳开源模式,已经达到了ChatGPT水平。


除mini杯外,微软还发布了小杯和中杯,7B参数Phi-3-small和14B参数Phi-3--medium。在技术报告中,微软还表示,去年的研究团队发现,单纯积累参数并不是提高模型特性的唯一途径,而是精心策划和训练的数据,尤其是利用大模型本身生成和生成数据,并配合严格过滤的优质数据,可以大大提高中小模型的能力,所以他们也表示,Textbooks are all you need,高质量的教科书级别数据非常重要。



03 AI模型的发展正在努力摆脱限制


自从英伟达乘着AI的东风以来,它已经成为业内最好的一个,名副其实的“卖铲子的人”。所有的AI公司都把英伟达的GPU当成了“硬通货”,以至于谁囤积了更多的英伟达的GPU,谁的AI实力就会很强。然而,英伟达的GPU交付并没有一直跟上市场需求。


所以,很多AI公司开始另谋出路,要么找其它GPU制造商,要么决定自己开发AI芯片。即使你已经储存了足够的英伟达GPU,还有其他限制。前段时间OpenAI被曝光。因为GPT-6的训练,微软的电网差点瘫痪。马斯克还表示,目前限制AI发展的主要因素是计算资源,但是在未来,电力将成为限制AI发展的另一个障碍。


显然,如果我们继续“大力创造奇迹”,通过积累参数来提高AI性能,这些问题最终会遇到。但是,如果我们把大模型做小,使用小参数来实现相同或更好的性能,我们可以显著减少对计算率资源的需求,从而减少对电力资源的消耗,从而使AI在有限的资源下得到更好的发展。


所以,下一步,谁能在把模型做小的同时,也能实现特性的增长,也是实力的体现。


本文来自微信微信官方账号“新火源”(ID:gh作者:一号,36氪经授权发布,_838b518e4b33。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com