英伟达开启“小模型”新篇章
电子发烧友网综合报道,近日,Nvidia 推出一款全新小型语言模型 Nemotron - Nano - 9B - v2。该模型在多项基准测试中成绩优异,并且用户能够灵活控制其推理功能的开启与关闭。
此模型以 Nemotron - H 系列为基础,融合了 Mamba 和 Transformer 架构。其中,Mamba 架构引入的选择性状态空间模型(SSM),可凭借线性复杂度处理长信息序列,在内存和计算开销方面优势明显。压缩后的模型能在 A10G GPU 上运行,适用于智能终端、工业设备等低功耗环境。
据悉,Nemotron - Nano - 9B - v2 的处理速度比同等规模的 Transformer 模型快 6 倍。在多项基准测试里,其准确率与 Qwen3 - 8B、Gemma3 - 12B 等同级开源模型相当甚至更优。此外,该模型内置“推理”功能,用户在模型输出最终答案前可进行自我检查,只需通过简单控制符(如 /think 或 /no_think)就能开启或关闭此功能。同时,模型支持运行时“思考预算”管理,开发者可限制用于内部推理的令牌数量,从而在准确性和延迟之间找到平衡。
Nemotron - Nano - 9B - v2 采用开源模式,其预训练数据集和模型本身已在 Hugging Face 及英伟达的模型目录中提供,且遵循 NVIDIA 开放模型许可协议,可完全免费商用,无需支付版税。
Nemotron - Nano - 9B - v2 的发布或许会引发新热潮,推动企业从依赖通用大语言模型(LLMs)转向定制化小模型。小模型针对特定任务(如库存分析、客户服务、市场分析等)进行了优化,能高效处理特定任务、生成多模态内容,并提供更具个性化的服务。例如,阿里的 Qwen3 系列开源小模型在不同尺寸版本上均表现出色,这证明小模型在保持较低资源消耗的同时,也能实现令人满意的性能。
目前,市场上小模型发布频繁。除了 Nemotron - Nano - 9B - v2,MIT 子公司 Liquid AI 近期也发布了一款名为 LFM2 - VL 的新型视觉 - 语言模型。该模型小巧高效,可轻松应用于智能手表等可穿戴设备,其设计目标是让多模态 AI 能在资源受限的设备上高效运行,同时保持低延迟和高精度。
LFM2 - VL 基于 LFM2 架构,采用 Linear Input - Varying(LIV)系统,能根据每次输入即时生成模型权重,减少冗余计算,提升设备端推理速度。该模型可处理文本和图像,支持不同分辨率的输入,并针对实际场景优化了速度与精度的平衡。在 GPU 推理速度上,LFM2 - VL 比同类视觉 - 语言模型快一倍以上,同时在常见评测中保持着竞争力。用户可根据部署场景调整图像 token 的最大数量和 patch 分块参数,以权衡速度与画质。
小模型的发布意义重大。它促使研究人员探索新的架构设计,如选择性状态空间模型(SSM)等,这些创新架构能以更高效的方式处理信息,为 AI 技术的发展提供新思路和新方向。此外,小模型对硬件资源要求较低,让更多企业和开发者能够负担起 AI 技术的应用,降低了 AI 技术的使用门槛,推动了 AI 技术在各个领域的广泛普及,尤其是在智能手机和可穿戴设备领域,AI 小模型展现出了巨大的发展潜力。
更多热点文章阅读
点击关注 星标我们
将我们设为星标,不错过每一次更新!

喜欢就奖励一个“在看”吧!
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com


