在特定任务超过GPT-4o的情况下,10万美元成本训练的小模型延迟了99倍。

05-15 10:15

虽然现有的SOTA级大语言模型智能化强,在某些任务上已经达到或超过了人类的水平,但它们的参数尺寸往往达到数千亿甚至数万亿,无论是训练、部署还是推理,都是昂贵的。对于企业和开发者来说,这些SOTA模型在一些相对简单但需要大规模和高并发的任务中可能不是综合成本和特点的最佳选择。



一家名为Fastino的初创公司看到了这个痛点,用低端游戏GPU训练了一系列名为“任务特定语言模型”的公司,平均成本不到10万美元。(TLMs,Task-Specific Language Models)在特定任务中,小型模型的性能可与大型语言模型相媲美,推理速度快99倍。


最近,Fastino获得了Khosla 1750万美元的种子轮融资由Ventures领先,Insight Partners,Valor Equity Partners,以及DockerCEOScottttttttttttt,著名天使投资者。 Johnston和Weights & Lukasase首席执行官 参与Biewald。Fastino于2024年11月获得M12和Insightight 在Partners领先的700万美元前种子轮融资中,共筹集了近2500万美元。


企业家不断使用小模型,帮助企业摆脱顾客越多,烧钱越多。


Fastino由Ash Lewis(CEO)还有George Hurn-Maloney(COO)共同创立,两人都是连续创业者,特别是Ash 在此之前,Lewis还参与了DevGPT的建立。、Ashtv AI等AI原生企业。



谷歌DeepMinddind也组织了一名成员。、斯坦福大学、卡内基梅隆大学和苹果智能的强大R&D团队。我们可以从底层技术上创新模型,然后训练“任务特定语言模型”(TLM)。


TLM模型,10万美元成本训练,性能不弱,推理速度比LLM快99倍

Scaling 在Law的指导下,AI模型越来越大,数千亿、数万亿参数的SOTA模型在智能上不断进步,甚至在一些初级任务上取代了人力(客户服务、会议纪要等)。).然而,大型模型带来了高成本。无论是几千万美元的实践成本,还是高昂的部署和推理成本,它们在某些任务中的经济性都不那么突出。


即使像OpenAI这样融资数百亿美元的头部基础模型企业,也已经获得了近10亿周活客户,但难逃客户越多,烧钱越多,入不敷出的困境。


AshFastino的创始人 在谈到创业的初衷时,Lewis还表示:“我们最后一家创业公司走红后,基础设施成本飙升。有一段时间,我们的语言模型支出甚至超过了整个团队的支出。这促使我们成立了这家公司。”


除了模型尺寸带来的高成本之外,另一个矛盾是模型的实用性和特殊性。虽然大尺寸模型带来了很强的智力和实用性,但对于开发者来说,在一些特定的特殊任务中,性能可能并不突出,需要为实用性带来的大尺寸额外支付成本。而且大尺寸模型启动速度更慢,也让用户体验更差。当前的AI工作负荷大多需要精确、速度和可扩展性,而不是一般的推理能力。


GeorgeorGeorFastino的创始人 Hurn-Maloney说:“AI开发者不需要在无数无关数据点上训练的大语言模型,他们需要适合自己任务的正确模型。因此,我们推出了高精度、轻量级的模型,让开发者可以无缝集成。”


“任务特定语言模型”Fastino(TLMs,Task-Specific Language Models),专门为开发者和企业设计,需要低延迟、高精度的AI,在定位上,不针对消费用户,不需要实用。


根据Fastino的说法,他们的TLM结合了基于Transformer的注意机制,但是在结构、预训练和后训练阶段引入了任务专业化。在不牺牲任务准确性的情况下,他们优先考虑紧凑性和硬件适应性。


这一结构和技术的创新,使得TLM模型能够在低端硬件(例如CPU和低端GPU)上高效运行,同时提高专注任务的准确性。性能提升源于系统地清除参数冗余和低效结构,而不是依赖硬件特定技术。与OpenAIGPT-4o的4000ms相比,它的延迟低至100ms,几乎是99倍。


在性能方面,Fastino将TLM模型与OpenAI标杆模型GPT-4o的性能进行了比较,包括意图检验、垃圾信息过滤、情绪倾向分析、有害言论过滤、主题分类和大型语言模型保护。数据显示,其标准特性的F1分数比GPT-4o高17%。



注意:F1分数是评价分类模型特性的指标,是准确率和召回率之间的和谐平均值,综合衡量模型在正确预测正例和捕捉所有正例方面的表现。


Fastino的TLM模型不是单一的模型,而是一组针对每一个特征进行训练的模型。它的第一个模型可以应对企业和开发者的一些最清晰、最常见的核心任务,例如:


  • 文本摘要:简洁、准确地从长篇大论或嘈杂的文本中生成摘要,适用于法律规定、支持日志和研究资料。
  • 函数调用(Function Calling):将用户输入转换为结构化API调用,适应代理系统或工具聊天机器人。
  • 将JSON转换为文本:适用于搜索查询分析、文档处理和合同分析,从凌乱的非结构化文本中获取干净、适合制造的JSON。
  • 个人信息(PII)屏蔽:对敏感或个人信息进行零样本屏蔽,支持用户定义的物理类型。
  • 文本分类:内置垃圾信息检验、毒性过滤、越狱阻止、意图分类、主题检验等功能,用于随机自然语言文本标签。
  • 粗话过滤:对不当或品牌不安全的语言进行实时监控和屏蔽。
  • 信息提取:结构化数据,如实体、属性和上下文信息,可以从文档、日志或自然语言输入中获取。

在收费模式上,Fastino虽然是基于企业而不是客户,但目前AI模型公司的主流用量并没有定价(比如GPT-4o的输入价是2.5美元/百万tokens,导出价是10美元/百万tokens),而是采用了订阅方式,对初级开发商和中小企业都很友好。


具体来说,对于个人开发者来说,每个月有一万个免费请求,而Pro客户每个月只花45美元,而团队客户每个月有300万个请求和1275美元。Pro客户和团队客户增加了一些优势,比如更快的模型速度、更安全的模型浏览和更多的前后窗口。



而且能以这种方式为开发者和小企业客户提供模型,都是基于Fastino本身极低的模型使用成本。


另外,对于企业客户来说,Fastino的TLM可以部署在客户的虚拟私有云、本地数据中心或边缘设备上,使企业能够利用先进的人工智能能力,同时保留敏感的信息控制权。


目前,Fastino的TLM已经影响了许多行业。从金融和医疗领域的文档分析到电子商务中的实时搜索和查询智能,财富500强企业正在利用这些模型优化运营,提高效率。


Scaling 在企业应用中,Law下的小模型具有独特的优势。


事实上,Fastino并不是唯一一家发现这个机会的公司,因为它具有成本低、延迟低、在特定任务中不弱于大尺寸通用模型的优势。Cohere和Mistral都为模型制造商提供较强的超小型模型;国内大型工厂,如阿里云的Qwen3,也有4B,1.7B,甚至是0.6B模型。我们之前介绍过的公司独角兽Writer,还有Palmyra系列,训练费用只有70万美元。


为什么企业和开发者在大尺寸模型的智能已经强大到一定程度的时候还需要小模型?根本原因在于成本、推理延迟和能力匹配。


首先,最直观的成本是部署成本和推理成本。如果公司追求高安全性,肯定会把一些业务放在私人部署上,大规模商业推理几千亿参数的大型模型的成本可能会超过小模型的练习成本。而且,如果是视频,微信等10亿用户的应用,一定要追求高并发,小模型的高并发推理,大模型的高并发推理成本,差距是指数级的。


同样,以大型C端应用为例。使用大尺寸模型时,推理延迟远高于小模型,小模型甚至可以将延迟达到微秒级,而大尺寸模型在使用时总是有卡屏,对用户体验的影响也非常直观。


对于一些应用规模大但比较具体的用例,其实不需要一般能力。大尺寸和超小模型带来的性能差距很小,企业不需要大尺寸模型带来的额外成本。


上述三个方面,都在Scaling。 在Law的笼罩下,它给了超小型模型足够的生存空间。这个道理当然适用于中国的AI应用创业者。幸运的是,中国模型的开源生态越来越完善,已经有了足够强大的超小型模型。创业者只需要根据自己的需求进行后期培训,就可以获得合适的模型。


本文来自微信微信官方账号“阿尔法公社”(ID:alphastartups),作者:发现非凡企业家的,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com