“勇毅者”闫俊杰,冲击IPO之路

07-12 06:54

“MiniMax正在探寻一条此前未被验证过的道路。”

6月17日,MiniMax官方公众号发布了全球首个开源大规模混合架构推理模型MiniMax - M1,公司创始人闫俊杰随即转发到朋友圈,并配文:“首次感觉大山并非不可翻越。”

之所以有此感慨,是因为M1模型凭借以闪电注意力机制为主的混合架构和更快的强化学习算法CISPO(一种通过裁剪重要性采样权重提升强化学习效率的强化学习算法)这两项技术突破,实现了深度推理的显著高效,还提升了强化学习的效率。据公司介绍,整个强化学习阶段仅用了512块H800三周时间,换算成(算力)租赁成本为53.47万美元。

除M1外,在之后的4个工作日里,MiniMax又接连发布了Hailuo 02视频生成模型、MiniMax Agent通用智能体、Hailuo Video Agent视频创作智能体、Voice Design音色设计。在MiniMax Agent发布当天,闫俊杰发朋友圈称:“研发中愈发强烈地感觉到AI的价值可以开始用经济来衡量。”

与此同时,MiniMax在资本市场也有新动态。6月,有消息传出公司正考虑在港股IPO。

这一消息并非毫无根据:早在2024年,MiniMax旗下产品星野AI(Talkie)营收就已突破千万美元,在海外市场表现亮眼,下载量曾超越CharacterAI,成为美国AI应用Top4。更关键的是有财务实力支撑——知情人士透露,公司今年以来通过多轮未公开融资,积累了充足的现金储备(约十几亿美元)。近期还完成了Pre - IPO融资,使其成为大模型创业公司中资金最雄厚的企业之一。

截至发稿,公司方面未对资本市场相关进展作出正面回应。

充足的现金储备让闫俊杰拥有了高度的战略自主权,也让这位极具“冒险精神”的创业者,能够坚定地推行“加速技术迭代”的发展路径。明势创投合伙人夏令此前参加活动时,评价MiniMax是“一家兼具野心、资源实力与非共识坚持的公司”,明势创投创始合伙人黄明明则称,“闫俊杰是个‘狠人’,在资源等各方面有限的情况下,仍专注于模型研发。只有这样的企业家才可能走得更远,走到最后。”

01 锚定MoE架构破局

2021年12月,商汤上市前夕,身为副总裁、研究院副院长和智慧城市事业群CTO的闫俊杰,选择离开商汤。

在闫俊杰看来,2020年之前,AlphaGo带动社会对人工智能的关注度和期待值大幅提升,国内外都投入大量研发资金,但当时的人工智能只能完成人脸识别、语音识别等简单任务,创造的社会价值较低。

对当时的闫俊杰而言,这是件“痛苦的事”,他逐渐意识到,核心问题在于当时的人工智能不够通用。

“当时我们用虚拟模型解决客户问题,客户问题众多时,就得做无数个模型,每次做模型都要训练、导数据,整个生产链条很慢。所以我们只能服务大客户,因为企业需要定制,但定制成本高、周期长,商业模式成了定制模型。”闫俊杰回忆道。

他思考着:“如果不做定制模型,把模型做得通用,是不是就能服务普通人了?”

同时,闫俊杰看到OpenAI关于GPT - 3的论文后受到启发,认为“把(GPT)模型放大10倍,技术路线或许可行”。

不过,做通用工具与闫俊杰在商汤的研发路线截然不同,所需人才、组织结构也不一样,他由此觉得“这是新兴公司的机会”。2022年初,MiniMax正式成立。

云启资本是MiniMax早期投资方之一,合伙人陈昱最初与闫俊杰接触时,就发现他是个野心较大的创业者,“他想成为中国的OpenAI或DeepMind,最终实现通用人工智能”。

在技术路线选择上,闫俊杰十分大胆。

2023年下半年,大部分中国同行还在迭代稠密模型(dense model)以稳健提升大模型性能,闫俊杰却几乎将全部研发和算力资源投入到更不确定的事情——MoE(混合专家系统)模型上。

黄明明回忆,当时MoE在硅谷都不是主流选择,只有OpenAI在做,甚至MoE的提出者都未坚持走这条路。

闫俊杰认为,尽管OpenAI尚未公开GPT - 5,但内部已完成训练。GPT - 5训练需高达5万张卡的算力,短期内国内难以达到3万张卡的规模,所以若要实现与GPT - 5相当的效果,必须采用更高效的算法(MoE),否则永远追不上OpenAI。因此,MoE成了团队“必须要做的事”。

2023年夏天,闫俊杰带领MiniMax团队专注研发MoE。

黄明明觉得,闫俊杰看似温和,实则疯狂。认定终极目标后,他会倾尽全力去赌。

“他把当时手头80%的算力资源都用于推进MoE。”黄明明说,“前两次尝试失败了,直到第三次成功,他才来跟我们(投资人)说,MoE差不多能搞定了。”

黄明明问闫俊杰:“为何要下这么大赌注?赌输了,公司可能就完了。”

闫俊杰回复:“只有做出MoE,才能以更低成本向更高模型阶段演进,否则成本不可估量,没有公司能承受如此高的token消耗量去实现更高平台的进化。”

02 应对DeepSeek,慢了一步

2025年1月15日,MiniMax发布首个开源模型MiniMax - 01系列。

接受晚点采访时,闫俊杰指出,开源的核心价值在于加速技术进化。“更好的模型能催生更好的应用,但更好的应用和更多用户并不一定能带来更好的模型。”闫俊杰说。想明白“智能水平的提升,没那么依赖用户规模”后,闫俊杰做出取舍,他认为当下MiniMax最重要的目标不是增长和收入,而是“加速技术迭代”,并坚定了做技术驱动型公司的想法,开始有意识地打造技术品牌。

但从行业变化来看,闫俊杰还是“慢”了一拍。2024年12月26日,DeepSeek - V3发布后,在业内积累了一定口碑和品牌效应。2025年1月20日,DeepSeek - R1发布,其声量迅速超过相对低调的MiniMax,进一步抢占了C端用户的心智。

面对DeepSeek的冲击,国内模型厂商主要分为两队,一队积极拥抱,大力宣传旗下产品接入DeepSeek;另一队坚决不接入,专注自研推理模型。

MiniMax选择在国内C端应用上不接入DeepSeek,只在海外AI应用上接入。

据MiniMax内部员工透露,DeepSeek发布未影响研发团队的节奏,内部仍按原计划专注低调地进行技术研发。

黄明明表示,他们非常认可MiniMax持续专注底层模型研发。“好的应用和产品是模型能力的自然体现,模型能力强了,自然能做出好产品。事实证明,模型能力不足时,做出的产品需要大量修补,耗费人力物力,还会让人失去对底层模型的专注。”黄明明说。

6月中旬,MiniMax连续发布包括基础模型及应用在内的5款产品,业内对其模型和应用评价较为正面,Hugging Face工程师王铁震告诉《中国企业家》:“MiniMax在探索一条未被验证过的路,很有价值。”

(注:Hugging Face是一家2016年成立的美国人工智能公司,致力于构建开源机器学习社区和平台,提供丰富的预训练模型、数据集和工具,助力开发者更便捷地构建、训练和部署AI应用。)

不过,MiniMax - M1系列模型未引发广泛轰动。截至7月10日,其在Hugging Face最热帖下载量仅25.2K,GitHub最热帖收藏量仅3K——这一数据明显低于Google、Meta今年初发布的开源模型,也不如DeepSeek - R1的收藏及下载量。

部分Agent创业者反馈,虽注意到MiniMax M1模型发布,但因自身产品上线排期紧张,暂未测试。另一位AI领域创业者告诉《中国企业家》,当前海外AI领域热点不断(如GPT - 5即将发布,Meta新模型迭代),分散了行业注意力,客观上削弱了M1的传播声量。在他看来,国际模型技术仍有一定领先优势。

对此,一位MiniMax投资人表示,MiniMax一贯风格低调克制,最终交付产品的口碑,可能比模型名字的知名度或下载量更重要。

“只有交付产品,才便于商业化,才有可能达到上市规模。快手的可灵交付的是生产工具,大家看重的也是产品,而非快手的视频模型。”该投资人补充道。

本文来自微信公众号“中国企业家杂志”(ID:iceo - com - cn),作者:孔月昕,编辑:马吉英,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com