刚才，智谱一口气开源6个模型，200 tokens/秒解锁商业速率最高

2025-04-16

就在刚刚，智谱一口气上线，开源三大类最新GLM模型：

GLM-Z1-思维模型-Rumination
GLM-Z1-推理模型-Air
GLM-4底座模型-Air-0414

如果按模型尺寸(9B和32B)进行划分，则可分为六款。

第一种是2个9B大小模型：

GLM-4-9B-0414：主攻对话，序列长度在32K到128K之间。

GLM-Z1-9B-0414：主攻推理，序列长度在32K到128K之间。

还有四个32B大小模型，分别是：

GLM-4-32B-Base-0414：在32K到128K之间，底座模型的序列长度

GLM-4-32B-0414：主攻对话，序列长度在32K到128K之间。

GLM-Z1-32B-0414：主攻推理，序列长度在32K到128K之间。

GLM-Z1-32B-Rumination-0414：主攻推理，序列长度为128K

随着一系列模型的开源，智谱也解锁了一个行业中最好的——

GLM-Z1-32B-0414推理模型实现了与DeepSeek-R1等顶级模型相媲美的性能，同时实测推理速度也可以达到。200 tokens/秒。

这样的速度，已经是国内商业模式中最快的了，而且性价比高的版本价格而且只有DeepSeek-R11/30。

值得注意的是，这次开源的所有模型都采用了宽松的MIT许可协议。

这就意味着上面提到的所有模型都可以免费适用于商业行为，自由分配，为开发者提供了极大的使用和开发自由。

那么这些开源模型的效果如何？

先看性能

首先来看下GLM-4-32B-0414。

这是一个拥有320亿参数底座的大型模型，其性能与国内外规模相当。

据了解，该模型基于15T优质信息进行预训练，其中大量推理生成数据特别融入其中，为后续强化学习拓展提供了坚实的基础。

在后期培训阶段，智谱团队不仅完成了对话场景中人类偏好的对齐，还运用了拒绝采样、强化学习等先进技术，重点提高了模型在指令理解、工程代码生成、函数调用等关键任务上的能力，显著提高了智能体执行任务的核心素养。

实际测试表明，GLM-在项目代码编写、Artifacts生成、函数调用、搜索问答和报告撰写等多个应用领域，4-32B-0414都表现出色。

已经达到或超越部分基准测试指标。 GPT-4o、DeepSeek-更大的模型水平，如V3-0324(671B)。

就实测效果而言，GLM-4-32B-0414进一步提高了代码生成能力，可以处理和生成更复杂的单文件代码。

例如，整个Prompt段是这样的。：

利用HTML模拟太阳系的行星运动。

再如：

设计一个绘图板，支持定制函数绘制，可以添加和删除定制函数，并指定函数的颜色。

还有一个小游戏的设计也不在话下：

实现HTML网页2048游戏。

再来看下GLM-Z1-32B-0414性能，一个专门为深度推理而设计的模型。

在GLM-4-32B-0414的基础上，该模型采用了冷启动结合扩展加强学习的策略，并对数学推导、代码生成、逻辑判断等高难度任务进行了专项提升，显著提高了解决复杂问题的能力。

另外，它还通过引入基于对战排序反馈的通用强化学习。（RLHF），进一步强化了模型泛化能力。

尽管只有32B参数，GLM-在某些任务中，Z1-32B-0414的表现堪比 671B DeepSeek-R1参数。

在AIME 24/25、LiveCodeBench、在GPQA等权威基准测试中，该模型具有优异的数学推理能力，能有效地应对更广泛、更具挑战性的复杂任务。

下一步，是小规模的。GLM-Z1-9B-0414，上述模型方法在技术上是沿用的。

虽然只有9B大小，但在数学推理和通用任务上表现出超越参数规模的卓越性能，综合性能稳居同量级开源模型前列。

特别值得注意的是，该模型可以在资源有限的应用场景中高效平衡计算效率和推理质量，为轻量级AI部署提供了有竞争力的解决方案。

最后，再来看看思考模型。GLM-Z1-Rumination-32B-0414。

这一模型可以算是智谱对未来AGI形态的探索。

通过多步深入的思维机制，思维模式选择与传统推理模式完全不同的工作范式，有效地应对高度开放和复杂的问题。

其核心突破体现在三个方面：

智能调用搜索工具在深度推理过程中处理复杂子任务；

创新引入多维度规则奖励系统，实现端到端强化学习的精确引导和拓展；

发现“完全支持”的问题→信息检索→逻辑分析→研究闭环系统的任务处理。

在学术写作、深度研究等需要复杂思维能力的任务中，这些技术创新显示出显著的优势。

例如，使其回答一个科学的假设推演问题：

假如人类在火星地下发现液体湖中有类似地球古菌的微生物，请推断：(1) 这种微生物可能如何适应极端环境？(2) 这个发现有哪些支持/反驳‘生命起源泛种论’的证据？(3) 设计一个可以验证这些假设的空间实验方案(预算仅限5亿美元)。

再看价格

除了模型开源，底座和推理模型也同步推出了MaaS开放平台。（bigmodel.cn），为企业和开发者提供API服务。

这次推出的底座模型提供了两个版本：GLM-4-Air-250414和GLM-4-Flash-GLM-44，250414-Flash-250414完全免费。

在线推理模型分为三个版本，各自满足不同场景的需要：

GLM-Z1-AirX（极速版）：定位国内最快的推理模式，推理速度可以达到 200 tokens秒，比常规快 8 倍；

GLM-Z1-Air(性价比版)：价格仅为 DeepSeek-R1 的适用于高频调用场景的1/30；

GLM-Z1-Flash（免费版）：为进一步降低模型使用门槛，支持免费使用。

为更一目了然，价目表如下：

对于配备对32B基本模型、32B推理模型、32B思维模型(裸体模型)的要求如下：

1张H100 / NVIDIA旗舰显卡A100或更先进。

4张4090/5090/3090

One More Thing

除上述内容外，智谱这次还有一个亮点动作。——

获得顶级域名Z.ai！

以下三种模式已上线：

而且官方还展示了一个更有趣的slogan。：

最后，纵观模型时代智谱的发展，不得不感受其更新迭代和开源速度。

怪不得它能成为第一个正式启动IPO流程的“大模型六骁龙”。

感受地址：z.ai

本文来自微信微信官方账号“量子位”，作者：金磊，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

开放北京印香山浅山台地实景示范区

下一代EUV光刻，有多贵？

美国“年度小企业主”贝丝：我可能6个月内破产

最近很多房地产企业都在退地，背后…

获阿里CEO投资，被比亚迪选中，85后海归博士逃离智驾“死亡谷”

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂