阿里云创新方案:英伟达H20 GPU用量大减82%
电子发烧友网综合报道,在当下人工智能(AI)领域,高效利用算力资源成了各大科技公司的追求目标。近日,阿里云提出的创新计算池化解决方案“Aegaeon”成功入选顶级学术会议SOSP2025。
SOSP(操作系统原理研讨会)由ACM SIGOPS主办,是计算机系统领域的顶级学术会议,每年仅收录数十篇论文,被誉为计算机操作系统领域的“奥斯卡”。
过去几个月,阿里云对Aegaeon系统进行了超三个月的Beta测试。结果表明,在服务参数量高达720亿的大型AI模型时,所需的英伟达H20 GPU数量从1192个减至213个,削减比例达82%。
这一显著减少意义重大,不仅让阿里云大幅降低硬件采购成本,也为依赖大量GPU进行模型服务的大型企业提供了借鉴。比如服务数十个720亿参数大模型,原本需1192张GPU,现在仅213张就能完成任务,硬件成本锐减超80%。
阿里云通过数据分析发现,现有模型市场中,少数热门模型(如阿里的Qwen)承载了绝大多数用户请求,而大量不常被调用的“长尾”模型却各自占用大量GPU资源。曾有17.7%的GPU算力仅用于处理1.35%的请求,资源闲置严重。
Aegaeon系统采用GPU资源池化方式,打破了传统“一个模型绑定一个GPU”的低效模式,实现了更高效的资源配置。它将多个GPU的计算、内存等抽象成一个资源池,按需分配给不同任务,避免了单个任务独占资源导致的闲置。
Aegaeon系统的核心创新点是Token级调度。其多模型混合服务功能能在每次生成下一个token时动态决定是否切换模型,实现精细化管理。通过组件复用、显存精细化管理以及KV缓存同步优化等全栈技术,Aegaeon将模型切换的开销降低了97%。
这一技术确保了token级调度的实时性,使模型切换响应时间能支持亚秒级快速反应。据悉,Aegaeon系统支持单个GPU同时服务多达7个不同模型,相比现有主流方案,有效吞吐量提升了1.5至9倍,处理能力提高了2至2.5倍。
Aegaeon的落地会推动算力租赁行业从“按卡计费”转向“按实际使用量计费”,企业可通过弹性调度降低闲置成本。测算显示,采用该技术的云服务商可将算力租赁价格降低40% - 60%,加速AI普惠化。
随着AI技术发展,对算力的需求持续增长。GPU资源的高效利用是实现AI规模化应用的关键。阿里云的Aegaeon方案为AI算力效率提升提供了新思路和解决方案,未来有望在更多云计算平台和AI应用场景中推广应用。
更多热点文章阅读
点击关注 星标我们
将我们设为星标,不错过每一次更新!

喜欢就奖励一个“在看”吧!
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com

