提供“开箱即用”的大模型训练能力,「算想未来」推出云原生大模型算力平台
36 氪获悉,AI 算力平台技术提供商「算想未来」推出云原生大模型算力平台,通过先进 GPU 集群调度算法、软件优化提升客户集群使用效率、降低大模型算力使用成本。
算想未来是服务于大模型的算力云服务技术提供商,2022 年 10 月获得陆奇博士的奇绩创坛种子轮融资。
创始人赵亚雄博士毕业于清华大学,长期从事分布式算力平台领域的研发工作,此前在谷歌数据中心网络基础设施团队担任 Tech Lead,负责高性能网络架构与 SDN 系统研发;后在集群管理系统团队 Borg 担任 Tech Lead Manager,负责谷歌 GPU/TPU 算力平台的研发工作。创立算想未来之前,赵亚雄是云原生可观测性创业公司 Pixie 创始团队成员,带领技术团队在 1.5 年内被上市公司 New Relic 收购。
在谷歌工作期间,赵亚雄博士积累了大量 AI 算力平台软件系统中的核心技术研发经验,包括 GPU/TPU 调度、高性能网络通信、光电混合网络架构等方面的研发开发经验。
赵亚雄博士向 36 氪表示,全球云服务市场美国厂商整体规模是国内厂商数倍,AWS、谷歌、微软三家份额接近 70%,国内厂商整体占比约为 10%,细分至 AI 领域,算力规模差距更大、及;算力平台软件系统方面的差距则更大。
随着生成式 AI 及 AI 大模型的兴起,国内厂商采购 GPU 面临核心技术指标受限的难题:单芯片算力不能超过 4800 TOPs、多卡通信带宽不能超过 600 GB/s。此两项指标上限取自 NVIDIA A100;下一代的 NVIDIA H100 提供 900GB/s 多卡通信带宽,国内能采购的 A800、H800 多卡带宽为 400 GB/s,落后接近 60%。
此外,GPU 产能吃紧,溢价较为严重。A100/A800 2023 年上半年的价格相对 2021 年上涨 50%,并且 A100/A800 已停产,NVIDIA 已不再接收 A100/A800 订单。
据 Raymond James 数据,一张 H100 计算卡制造成本为 3320 美元,NVIDIA 以 2.5 万至 3 万美元的价格出售给客户,毛利率高达 1000%,且需求只增不减,H100 已售罄缺货到 2024 年。在高端算力需求快速增长的情况下,中国厂商将来需要更高效的 GPU 算力的软硬件优化方案解决高端 GPU 短紧缺的情况难题。
利用软硬件优化释放 GPU 资源池算力的过程较为复杂,包含了服务器架构、编译工具链、AI 应用框架、分布式计算、高性能存储等多个层级。针对各公司自身算力池的优化方案,国内大部分厂商若要搭建相应软件团队,需要在各个层级都聘请工程师团队,成本较高。此外,上述软件系统的运维成本也极其高昂。
针对上述情况,算想未来为客户提供 " 开箱即用 " 的大模型训练能力和硬件资源管理能力,实现低成本的高端算力服务。未来拓展为训推一体大模型算力云平台,为大模型团队提供一站式算力云平台解决方案。
硬件资源管理能力方面,算想未来为客户的 GPU 服务器集群搭建基于 Kubernets 的云原生算力平台。依托来自容器和云原生技术发源地 Google Borg 的先进 GPU 资源调度算法,提升 GPU 服务器集群的资源使用率。
大模型训练能力方面,与传统基于单卡的计算任务不同,大模型训练属于大规模分布式计算任务,GPU 在该长时间训练过程中的故障率高达 5%-20%。一旦 GPU 发生偶发性故障,需要工程师手动干预来重启训练任务,降低了大模型团队的研发效率。
第一阶段,算想未来目前以 AI 私有云平台为切入口,针对英伟达 GPU 算力池优化进行 GPU I/O 优化、集合通信(collective communication)性能等领域进行软件方面的优化。
同时通过自动化监控监测 GPU 运行情况、以及计算任务执行情况,客户可在算想未来平台上做到容错调度,实现无人干预的长时间稳定训练的效果,提升大模型团队研发效率、加速模型迭代。
算想未来已积累到多家种子客户,主要系拥有自己 GPU 算力池的公司,包括国内知名的 GPU 算力池企业、地方及国家级人工智能算力中心等。
赵亚雄博士表示,算想未来目前的客户更偏向于拥有算力资源的企业,第二阶段公司将开发分布式大模型算力市场,为大模型团队和算力提供方提供开放的算力采购、售卖的市场。
以 IDC 提供的 A100 集群为例,虽然目前 GPU 较为紧缺,但使用率仅在 30%-60% 之间,存在大量闲置算力。单一的 IDC 厂商主攻软件优化方案将耗费大量人力物力,同时目前软件营收规模吸引力较小,IDC 厂商更愿意专注于大客户的硬件长租业务,相应成本中小客户难以承担,寻找相应软件合作商成为目前国内 IDC 厂商的主流选择。
此外,算想未来将与公有云厂商合作,将长租公有云 GPU 集群算力,搭配私有云平台的软件技术,为客户提供随需随用的高端 GPU 算力;更进一步通过软件优化,将闲置的中低端 GPU(包括国产 GPU)的算力充分释放,支持大模型推理的算力需求,让闲置算力拥有者获得变现渠道。
如今 AI 浪潮席卷到中国市场,几乎所有的主流云厂商、芯片厂商都有做 AI 算力集群、AI 云的尝试,算想未来如何看待和大厂的竞争?
赵亚雄博士表示,算想未来的客户是迫切寻求大模型工程能力的中小型技术企业,相比主要云厂商主攻大客户提供 " 劳斯莱斯 ",此类解决方案规模庞大、功能齐全但是使用困难,中小企业难以负担其高昂的成本;算想未来为中小型技术企业提供 " 随叫随到的 Waymo 无人网约车 ",即自动化免运维的大模型算力服务,在中短期内与主流云厂商不发生直接利益冲突。
同时国产 GPU 成熟前,国内进口 GPU 的质量和数量受到限制,国产 GPU 能大规模商业化落地还需时日,目前大厂难以实际应用,算想未来通过与国产 GPU 的战略合作,可以积累到足够的技术壁垒。
当前,算想未来与国产 DPU、GPU 厂商、高校科研团队签署合作协议,开展针对大模型算力需求场景下,适配国产 DPU、GPU 的高性能集合通信算法与软件 API;同时开展基于国产 GPU 的大模型算力平台的研发。
其他团队成员方面,算想未来创始团队均来自谷歌、华为等企业,具有世界顶尖的 AI 算力平台研发经验。算想未来目前开启新一轮融资,计划建立硅谷研发中心,用于扩充工程师团队和推进分布式大模型算力市场的商业化。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




