「清程极智」翟季冬:在中国AI算率行业,36人不能只“复制”英伟达。

2024-09-07

欢迎关注


涌现(Emergence),它是生成AI浪潮的一个关键现象:当模型规模扩大到临界点时,AI会展现人类的普遍智慧,能够理解、学习甚至创造。


「涌现」也发生在现实世界——硅基文明即将到来。AI领域的企业家和创造者正在用他们的智慧和头脑点亮实现AGI的漫长旅程。


随着新旧生产力的变化,“智能涌现”推出了新频道「涌现36人」,在这个阶段,我们将通过与行业关键人物的对话来记录新的想法。



作者邱晓芬


苏建勋的编辑


一场超级计算比赛的激烈程度,或许不亚于一场F1赛车。


从美国到欧洲,再到亚洲,所有的团队都要经历三轮战斗。来自世界顶尖学校的学生团队带着他们最先进的计算率去赛场。


当每个团队分配五个应用问题时,他们应该训练服务器中的七八个裸金属硬疙瘩,这样他们就可以计算出超出人脑能回答的复杂问题。


翟季冬作为清华大学计算机系的教授,多次带领学生参加,并获得十多个冠军。然而,他发现超级计算比赛几乎相当于英伟达先进GPU的集体展示——大多数团队都标配英伟达的设备。


情况可以有所改变吗?


翟季冬心中一直萦绕着这个问题,这也是「清程极智」诞生的原因之一是,如果你想让国产计算率逐渐站在舞台前。不同的是,他不打算从重资产的硬件方向切入计算率跑道,就像过去大多数国产芯片企业家一样。


过去,中国的芯片创业基本上集中在wifi芯片、MCU等更普遍的行业,试图从下往上突破。直到2020年左右,随着国际游戏趋势的加剧,以GPU为代表的AI芯片创业热潮在中国逐渐掀起,直接切入半导体和AI的要塞。


但是这条赛道过去几乎充满了艰辛和压力。国产AI芯片只有一个对手,几乎垄断了全球半导体行业所有优质资源的英伟达在牌桌对面。


从另一个角度来看,这是中国AI芯片的机会。


然而,新的变化是,经过几年的沉淀,人们逐渐正视自己原本的野心,出现了新的反思。一些现实摆在我们面前:虽然中国大部分AI芯片都喊出了“对比英伟达”的口号,但软硬件的缺点在大型厂商实际使用时难免会暴露出来。


“用三四年的时间超越英伟达是一项不可能的任务。中国芯片厂商只在硬件层拼英伟达可行吗?”在先进工艺落后、积贫积弱的情况下,尽量切入软件创新,是盘活国产芯片“蚂蚁雄兵”的重要组成部分。


而且这就是翟季冬和「清程极智」团队想要做什么。


显然,在过去,软件几乎是人工智能芯片经常被忽视的一个环节。如果以英伟达为参考,我们可以发现英伟达不是一家简单的硬件公司。相反,他们更愿意称自己为软件公司——英伟达负责软件,这几乎是硬件团队的几倍。


然而,在软件上不断努力也让英伟达在过去受益匪浅。一个有趣的现象是,当人工智能发展迅速,从2013年的卷积结构到现在的Transformer,芯片的热潮跌宕起伏,但英伟达的硬件始终以不变应万变”。翟季冬说,这是由于英伟达计算芯片上层灵活的软件支持。


当前,翟季冬向《智能涌现》介绍,「清程极智」团队推出了「清程Pro」、「清程Pro Max」软件平台,通过软件切入,提高国产计算率,使国产计算率也能起到不输英伟达产品的作用。


举例来说,经过实测,「清程Pro」与国产芯片合作后,提高了芯片推理的吞吐量。 1.7 倍,远远超过英伟达同类产品;「清程Pro Max」然后从芯片的连接开始,可以在两三个服务器相互连接的情况下,将大模型推理的吞吐量提高大约五六倍。


根据翟季冬的说法,在一个国产卡四卡平台上,清程极智的推理系统FastDecode 对某 130B 大型模型可以达到比较 vLLM 高达 7 产生吞吐量的倍数。


现在,“软件可以免费帮你做很多事情,在一定程度上可以弥补硬件本身的不足”,「清程极智」已与多家国产芯片制造商、国产大模型制造商达成深度合作。


此前,翟季冬团队还开发了一种能够在超级计算机上训练数百万亿参数模型的方法。「八卦炉」系统。令人难以置信的是,这个超算系统具有足球场大小,其背后的芯片都是国产芯片。


翟季冬介绍,超算验证的「八卦炉」该系统是最智能化的关键技术之一,为芯片系统架构提供算法编译优化,并为超大型集群提供并行计算解决方案,包括网络通信升级、容错系统、负载平衡等。未来将支持更多的国产计算率。超大规模训练高达10万卡。


翟季冬判断,未来中国可能只有少数AI芯片行业能够在实践中获胜,但中国在终端应用方面的想象力比美国更强,推理芯片一定会百花齐放,明年下半年可能会出现更多的新公司。


而且在这一趋势下,分散的中国AI芯片市场,为软件创新的出现提供了一片湿润的土壤。


下列《智能出现》与翟季冬的交流记录(略经摘编)


用软件盘活“国产计算率”


智能化涌现:你以前的经历如何?为何选择与计算率提高有关的行业进行创业?


翟季冬:我在清华的时候,2014年开始带本科生参加全球超级计算比赛。每年有三场比赛,一场是美国,一场是欧洲,一场是亚洲。我们将带来一个包括多台服务器在内的小型集群,每台服务器都有多张加速卡。


组织者将提供上下五个应用程序,每个团队将提高他们携带的集群中的应用程序。最后,我们来看看哪个团队综合性能最高。有点像F1跑车。我们不仅要带好硬件,还要充分发挥这些程序在机器上的性能。


我们在全球超级计算比赛中总共获得了十几个冠军,但是我们之前用英伟达最好的GPU参加比赛,比如H100。、A100。


我们的团队多年来一直在提高智能计算率方向。这一次,我们希望通过产学研机制更好地推动这一方向,也有助于国产芯片的发展。


智能化涌现:大家最近对接了不少国产芯片,现在这些商品用起来有什么感觉?


翟季冬:虽然目前国产芯片的计算率性能与英伟达还有一定差距,但综合性能还是不错的。目前国产芯片的主要问题是软件生态。目前国内有十几个AI芯片,但是我们发现很多用户对国产芯片的接受度还是不高的。


比如我们要做很多华丽的AI应用,上层模型在标准的开源版本上有所改变。这个时候运行国产芯片可能会遇到一些问题,使用英伟达芯片会遇到很多问题。


我们考虑的问题是,如何盘活国内计算率市场,让上层大模型应用感受不到国产芯片在使用过程中的一些不畅通,或者尝试获得与英伟达相同的体验。


事实上,十年前,大家也认为,与完善的CPU系统相比,英伟达的CPU系统 GPU不好用。英伟达经过多年的努力,建立了完善的软件生态。国内的AI芯片公司都是2016年以后成立的,有的是2020年左右。如果他们想在三年内超越英伟达,那将是一个巨大的挑战。


我们也在想,如果中国芯片完全再现了英伟达的路线,那就是最简单可行的思路,但是这个思路最好吗?也许我们需要进一步思考。


在我看来,国产芯片如果能够做好软件,硬件也可以发挥到极致。


智能化:你现在的商业模式是什么?


翟季冬:我们的关键技术集中在智能计算系统软件上。从商业模式来看,我们将这一系列软件与计算率相结合,使计算率更容易使用,并以不同的形式直接交付给终端用户。


今年上半年,我们的计划是与底层芯片制造商密切合作,同时协助上层大型制造商无意识地将模型转移到国产芯片上。清华计算机系孵化了几家知名的国产大模型公司,我们与这些机构有很多深度合作。


智能化涌现:你们如何利用软件来解决国产芯片硬件难用的问题?


翟季冬:我们曾在一个国产芯片上添加我们的软件,形成一个软硬一体化解决方案。「清程Pro」,将大型推理吞吐量提高1.7倍。之后我们在此基础上进行了一些硬件改进,构成「清程Pro Max」事实上,吞吐量可以提高大约五六倍。


软体免费帮你做很多事,在一定程度上可以弥补硬件本身的不足。


智能化涌现:升级是一次性交易吗?怎样提高计算率优化的效率?


翟季冬:就我们系统软件的设计而言,对任何一种芯片进行优化,然后在其他芯片架构上使用,都不需要重新实现。因为我们的软件在设计上有很多共性,所以我们在底层的编译器中会有一个统一的中间表示会和各种芯片架构对齐,这样不同的厂商可以购买不同的AI来加速芯片。有了我们的一套软件,我们还可以提供各种芯片。也就是说,上层模型一直在迭代,清程的技术能力可以持续有效地支持新模型底层算法的推广。未来,它将继续与各种芯片制造商和模型制造商合作,而不仅仅是一次性交易。


智能化:我们的技术壁垒是什么?


翟季冬:首先是AI编译器,其核心功能是有效地将上层模型算法转化为可以执行代码的底层AI芯片,释放不同底层AI芯片的计算能力。我们清华大学计算机系高性能研究所的实验室在这方面积累了很好的技术。


二是并行系统。目前的计算系统是一个高度并发的系统。无论是大模型训练、微调还是推理,都需要将模型映射到AI芯片和AI芯片中的多个功能模块中。


如何拆分模型,如何高效完成通信,都是平行系统需要考虑的问题。我们在大规模平行系统方面做了很多相关的工作。


中国芯片创业需要新的创新思路。


智能化涌现:但在行业内,是否还没有以创新方式为中心进行反思?


翟季冬:不能说完全没有反思,但是还需要更多的思考,核心痛点在哪里?创意在哪里?


在我看来,今天中国芯片面临的核心问题,是如何让这些芯片更好地使用,真正发挥底层的算率。


智能化涌现:你认为中国芯片公司过去几年的玩法如何?


翟季冬:英伟达用了20年的时间积累了硬件和软件,产品中有很多创新。国产芯片可以通过简单的模仿来超越他,而不是在学习中公开这些材料。


如果中国公司想在实践中超越英伟达,除非你有实质性的创新,否则中国的发展不应该简单地复制。模仿别人只能一直跟着别人。我认为核心是有自己的技术创新。


一个更有价值的想法是,在中国芯片公司明确受到国际供应链的限制的情况下,如何通过软硬件协同创新突出重围?


它是中国芯片更好的出路。事实上,我们可以通过软件有效地整合这些芯片。


像英伟达这么多年,它的结构本身并没有改变。从2013年的卷积到今天的Transformer,英伟达的底层结构保持不变。它试图通过软件帮助用户适应它。我觉得这就是软件的意义,因为软件比较灵活。


智能化涌现:为什么选择在中国,从这个算率软件优化的角度来创业?


翟季冬:国外,做算率相关软件只需将英伟达、 如果AMD服务好,问题基本就解决了。如今,英伟达是美国唯一的一家,整合其他芯片的意义有限,但在中国,这是一个机会。


假如英伟达的所有算率都对中国开放,那么中国的芯片增长机会就会少很多。


对于国产芯片来说,英伟达的弱点是他们的机会点。如果你盯着他的优势去做,很难超越他。中国芯片市场越分散,端芯片场景越分散,给软件创业带来的机会就越多。


智能化涌现:有没有感觉到现在国内的芯片厂商比较各行其是,缺乏合作?


翟季冬:英伟达是一家雄心勃勃的企业。她们制作了一系列GPU加速卡,随后又收购了网络芯片企业迈络思,又做了自己的 ARM CPU,他想成为一体机,甚至想要购买。 ARM。然而,国内大多数芯片制造商实际上没有整合的野心和能力。国内厂商大多分散,有的更倾向于推理,有的更倾向于培训。所以我觉得现在国内的算率很难形成协同努力。


但从另一个角度来看,这反而给了算率软件创业的机会,我认为这一现状,在未来5-10年仍将存在。


美国的训练更加强大,中国的想象力更加丰富


智能化涌现:国内坚持做万卡训练的芯片公司,是因为buy in了scaling law?你怎么看,它会继续吗?


翟季冬:我们所说的大模型可以理解为将大量的数据压缩起来,放入千亿或万亿的数据库中,这是一个数据压缩的过程。


假如编码和压缩算法效率更高,那么原来的压缩可以用万亿参数来完成,现在的压缩可以用5000亿模型来完成。


如果我们能在单位的参数中整合更多的知识,我们就不需要盲目追求这个大参数了。我觉得大模型参数增加是无奈之举,未来算法还是需要不断创新的。


智能化:硅谷出现了许多新结构的芯片,你认为这种现象在中国未来也会发生吗?


翟季冬:与美国相比,中国的使用场景更多,端边如何将性能、成本、功耗达到极致,是非常重要的。


将来,端侧相对于服务器侧会更加百花齐放,所以端侧软件在这方面的作用也会更大。


智能出现:但是国产芯片有的是从培训开始的,有的是从推理开始的。其实从商业的角度来说,从培训还是推理哪个方面开始比较好?


翟季冬:从中国发展的角度来看,我认为实践和推理非常重要。从国家和行业发展的角度来看,即使是算率集群也是不可持续的。万卡国内培训平台要求很高,最终只有少数企业能获胜。


对于一些公司来说,他们可能无法在短时间内实践一些企业,或者市场上的一些公司可以购买可用的芯片,所以他们的策略可能会偏离终端。


今年是大模型应用的第一年,目前还处于探索应用阶段。如果应用在过去两年爆发,对端侧推理的需求也会爆发。端侧对成本更敏感,场景更多。


虽然美国的大模型训练会比中国做得更好,但中国终端应用的想象力仍然比美国强。事实上,终端也在尝试探索。有可能一些优秀的应用会在明年或者今年下半年慢慢出现。


智能化:但你们不做硬件,以后怎样才能很好地发挥软件的能力?


翟季冬:虽然我们目前不做芯片,但是我们已经和芯片厂商有了很多深度的合作。芯片制造商为我们打开了底层界面,我们可以从非常接近芯片的层面开发软件。



end


end


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com