「阶跃星辰」的一次豪赌

05-13 09:49

文|邓咏仪


编辑|苏建勋


五月八日,久未露面的阶跃星辰CEO姜大昕,出现在北京的一次媒体交流会上。


“在多模态领域,如果任何方面都有缺点,探索AGI的过程都会减缓。”姜大昕做出了明确的判断。在过去的一年里,他在不同的场合反复提到,多模态是实现AGI的唯一途径。


六骁龙中,阶跃星辰的低调与其他在融资、市场声量等方面有火烧油之势的选手相比尤为显眼。


这家公司是最安静的,但它可以有独特的地位被记住——在过去的几年里,它并没有参与应用投流的疯狂,在To中。 C在应用上也只是有一些测试。


现在多模态已经成为阶跃最亮眼的标签,这家公司正倾注着大部分的力量来探索这条道路。


阶跃成立两年来,发布了22款涵盖文字、语音、图像、视频、音乐、推理等的自研底座模型。其中16款是多模态模型,占比超过70%。因此,阶跃在业内被称为“多模态卷王”。


但是多模态的发展阶段和语言模型是不同的。


在技术路线已经收敛的语言模型领域,大部分公司已经按照类似的技术路线迭代,但多模式的技术探索还处于起步阶段。从顶级工厂到AI创业,似乎穿梭在迷雾中。


当Sora在2024年震惊全球时,许多AI企业家都有不同的看法。“当Sora出来的时候,我们实际上很失望。我们认为它的主线应该是理解和生成的整合,但他们只做了生成,没有太多理解。”姜大昕说。


姜大昕告诉《智能出现》,如果对比语言模型的技术演变时间线,阶跃押注的“理解” “生成一体”的原始多模方向可能仍然处于GPT。 Transformer在1.0之前刚刚出现的阶段。


多模式的一大难点是,单个模式的性能在结合过程中不能丢失,尤其是智力下降。阶跃采用的技术路线可以算是“非常困难”:同样的大模型,既要理解,又要生成。它是阶跃星辰从成立之初就确定的发展主线。


理解与生成,是原生多模角度的一体两面,这意味着:


可以理解:模型可以理解图片中的物体关系,这需要生成端来监督。


可以产生:产生的内容,也需要理解和调整,以确保它不超出物理世界所理解的范围。


在GPT-4oimage于2025年发布之前,吉卜力、拟人化的风格滤镜点燃了全球,多模式又回到了全球AI舞台的中心。而且以DeepSeek为代表的推理模式的进步,也可以为多模式的技术探索补充一个重要的拼图。


多模态和Agent,是2025年的两个关键字。在过去的一年里,姜大昕在不同的场合反复强调,多模式是AGI的必经之路。Agent是业界在AGI道路上探索的最初形式。


目前,阶跃也专注于Agent领域的布局。在车辆、手机、身体智能、IoT等关键应用领域,阶跃已经跟随Oppo。、吉利汽车集团、万里科技等公司合作,在关键场景中应用Agent。


在DeepSeek一飞冲天,点燃全球之后,它的另一面是——当稳如泰山的技术壁垒被击穿时,每个人都不得不走到焦虑的十字路口:接下来,我们应该如何走技术路线?


大工厂有股票和客户,还有足够的时间腾出方向,增加火力。对于大模型创业来说,这种折磨尤为迫切。短短两个月,大模型六小虎就有了裁员团队,裁员To。 C应用程序;还有停止投流的人,再一次将重点放在语言模型上。


对于创业者来说,探索更加前沿、更加未知的领域,或许是这个阶段更加重要、更加确定的事情。


对于阶跃来说,这也是一场赌博——现在,阶跃已经组织了几个不同技术路线的团队。姜大昕说:“任何一条路线都有可能有所突破,形成并发状态。


在这次交流会上,姜大昕不仅披露了未来的模型和商品计划,还对当前多模式领域做出了关键判断,并通过《智能出现》进行了编辑和整理:


多模态在任何方面都有缺点,会减缓AGI进程。


  • 目前,追求智能上限仍然是最重要的。在许多场合,我也不断地重复:多模态是实现AGI的唯一途径。


    在过去的几年里,我们看到整个行业的模型进化,基本上还是遵循这一路线图:模拟世界-探索世界-总结世界。


    从技术路线来看,目前的发展也是从单模态到多模态,从多模融合到理解,再从强化学习到AI。 for Science。


  • 阶跃从一开始就一直认为:多模态对于普通人工智能至关重要。为什么呢?


    首先,AGI是针对人类智能的,人类智能是多元化的。除了语言符号智能,每个人还包括视觉智能、空间智能和运动智能等。这些智能需要通过视觉和其他模式来学习。


    从应用的角度来看,无论我们做什么应用,我们都需要AI来听、看、说,这样才能更好地了解客户的环境,更自然地与客户沟通。多模式可以让智能身体充分理解和感知世界,从而更好地理解客户的意图。


    所以,在多模态领域,任何方向出现短板,都会减缓AGI的实现。


  • 就多模态而言,下一步的模型发展趋势有两个方面:一是,加强对预训练基础模型的学习,可以在激发模型推理时产生长思维链,大大提高模型推理能力。


  • 从OpenAI发布o1到春节前DeepSeek R1发布,我认为这是一个标志,推理模式已经从一种趋势转变为一种模式,现在语言模式基本上是一种推理模式。


    这是一个非常火爆的地区,每个人都在努力创新。稍微更新一下,一个大家都不太注意的能力,其实就是如何将推理引入多模式领域。


    比如给这张图(足球比赛)一张,问这张图是谁的,是谁的主场。这就是把模型感知和内部知识结合起来,一起推理,比原来的视觉理解强很多。



△来源:阶跃星辰


  • 二是多模理解产生一体化,更准确地说,是视觉领域的理解产生一体化,理解和产生都是用一种模式来完成的。


    为什么一定要整合?比如在这个视频中,老师写板书,老师的手的姿势,黑板上铅笔写的痕迹,比如Sora可以模拟未来的样子。但是当老师写了一半停下来的时候,需要了解模型来预测他以后会写什么。


    产生内容是需要理解和控制的,你要保证产生的内容是有意义和有意义的;


    而反过来,理解就是要生成监督来监督。是的。只有当我能够产生并产生它时,我才知道我真的明白了。


    理解产生一体化,可以更好地帮助产生推理。


    我举个例子:当人们画一幅大画时,他们往往不会一下子完成所有的画。现在在画模型的时候,他们会一次性画出来,但是当人们画画的时候,他们会有一个想法。他们可能想知道大结构是什么样的,然后一步一步画出细节。


    绘图其实是一个思维链的过程。为什么我们的模型在生成的时候不是一个思维链?我只是不明白生成是一体化的。我想根据这个框架画一个框架,然后画一些物品,然后再生成,然后根据产生的物品再生成。我甚至觉得这笔画不是很好。相反,我改变了它,重新生成了它。现在还是堵在这个问题上,就是理解生成是不一样的,所以他很难用长思维链一步一步的去生成。



△来源:阶跃星辰


  • 在语言领域,Predict next token(预测下一个字元)是唯一的任务,整个训练过程就是看你判断Predict是否正确。


    当我们移动到视觉领域时,我们会问:我们能否用一个模型来制作predict? next frame(预测下一张图片)?在视觉领域,这是一种灵魂拷问。不幸的是,这个问题仍然没有得到解决。


    之所以没有解决办法,是因为模式的复杂性。大家都说语言很复杂,但是从统计上来说,语言是一个简单的项目,因为语言最多有十几万个token。


    但是在视觉上,一张图片,我们先不谈视频,一张图片1024×1024,就是100万维,每一层仍然是一个连续的空间,难度各不相同。


  • 在语言领域,2017年Transformer的出现,对于行业来说,最大的意义在于,这是一个可以scale(扩大规模)的文本认知结构的集成,在此之前,其它模型基本上不能Scalable。


    2020年GPT-3的意义在于:我们第一次将大量的互联网数据放在这个scalable的架构上,用一个模型处理所有NLP(自然语言理解)的任务;


    到2022年,ChatGPT出来了,就是在预训练模型的基础上加上指令跟随,这就是GPT-3.5所做的;


    GPT-4时,这种能力进一步增强。“GPT4时刻”是指在这种模式下,我们的模型真的可以达到和人类智力一样的水平。


    现在,通过推理,我们可以解决很复杂的问题。


  • 接下来是什么?许多人认为应该在网上学习或独立学习,也就是说,他们可以根据环境不断地学习新的知识。


    到目前为止,我们认为语言模型的技术路线已经基本收敛,没有其他分支机构。因此,我们相信视觉也可以有相同的路线。


    那么第一步就是有一个非常scalable的结构。与语言模型相比,多模式的“理解产生一体化”,甚至应该是在Transformerlevel上。那时还没有GPT,Transformer是在2017年发布的,GPT-1是2018年出的。


DeepSeek告诉我们,投流的逻辑是不成立的。


  • 在我看来,DeepSeek给了我们一个经验,投流的逻辑是不成立的。DeepSeek从 来不做投流,如果放开这个流量,破亿也没问题。


    当然,我们应该重新思考AI时代的产品流量增长是否真的像传统互联网或者通过投流。DeepSeek出来后,我们会给你一个再次处理这个问题的窗口。


    不只是DeepSeek,像《哪吒2》和《黑神话悟空》这样的东西,其实都有一些共性,并非靠传统的铺天盖地的投流来积累用户。


  • 商业化之前,模型突破。刚才我做了一个描述,在GPT-3.5之前会有。 ChatGPT,在拥有完美的Agent之前,有一个多模融合和推理模型。首先要有多模理解,生成一体化,尤其是scalable,这样才能真正泛化人形机器人。


    如果那个东西突破了,它的价值不仅仅是在Agent上,我最想看到它在智能泛化方面有了新的突破,包括建立世界模型。



△来源:阶跃星辰


  • 2025年,我们将产品名称“跃问”改为“阶跃” AI”,也就是说,它已经从一种类型的ChatGPT产品转变为Agent的能力。


    在Agent的产品和商业化方面,我们的智能终端实际上是ToC。虽然我们与头部企业合作,但与头部企业合作的产品,如阶跃,最终服务于C端。


  • 为什么我们仍然坚持基本的大模型研发?我认为目前这一行业的趋势技术发展仍然处于一个非常危险的范围内。


    Sora在2024年刚刚出来,给大家带来了很大的震撼,但是今年回想起来,大家都会觉得Sora没有什么神奇的。在这个过程中,阶跃不想放弃主流增长或前进的趋势,所以我们仍然会坚持研发基础模型。


    从应用的角度来看,我们总觉得应用和模型是相辅相成的,换句话说,应用上限可以由模型决定,应用程序可以为模型提供具体的使用场景和数据。


    资料也很重要,产品形态随模型进化,这是动态发展的。


专注于终端Agent的行业龙头公司


  • 伴随着模型能力的不断提高,什么样的模型决定了什么样的应用程序能够被解锁、成熟和繁荣。


    早期,各种聊天机器人更受欢迎;有了Agent,我们就可以用它来解决数学问题,敲击代码;


    下一步是非常火爆的智能体,我们相信最终会从数字世界走向物理世界,延伸到智能驾驶、人形机器人等领域。


    事实上,Agent在2023年就被讨论过,但是到了2025年,它变得非常火爆。据我所知,Agent的爆发需要两个必要条件,一个是多模式的能力,另一个是慢思考的能力,这两种能力在2024年正好取得了突破。


  • 我们选择了智能终端Agent作为我们的方向。首先,Agent应该能够帮助人类更好地实现目标,了解客户的环境和任务。很多终端都是用户感知和感受的延伸,比如手机和耳机。当任务启动时,它已经知道任务的前后。


    其次,很多智能终端或终端的设备都是为了帮助你完成任务。比如微波炉,我家的微波炉有几百个功能,但是我很少用,所以希望是Agent。如果你将来把一个芯片放在微波炉里,你可以直接和它说话。智能终端完全有能力实现这一点。


  • 事实上,在智能终端上,我们还选择了几个重要的终端:手机、汽车和机器人。


    我们与各个方向的头部企业进行了深度合作。比如Oppo的一键问屏功能,背后是阶跃的多模态模型。可以拍照,处理照片,或者识别照片中的人做一些问答,导航功能。


  • 对成为垂直行业的供应商,而非直接To C或是To B,就是觉得这个东西很新,头部企业已经有了大量的用户,有了情景,我们就可以尝试一下这个模型到底是怎么做的。


    假设我们上去做ToC,我们首先要做的就是做grow。 user(用户增长)和场景增长。


    所以,我们先和合作伙伴合作,等这件事探索清楚,以后是否自己做,我想都是有可能的。


    如今,所有的设备都是孤立的。事实上,有一个非常有吸引力的场景。对于一个用户来说,我希望它的Agent或助手可以跨越设备。谁来做这件事?我想一定有很多人在想。


欢迎交流


欢迎关注


本文来源于微信微信官方账号“智能出现”,作者:邓咏仪,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com