能源效率提高3倍!异构计算架构使AI跑得更快更省电
电子爱好者网报道(文章 / 通过集成多种不同类型的控制部件(例如李弯弯)异构计算架构 CPU、GPU、NPU、FPGA、DSP 等等。),根据不同计算任务的特点进行分工合作,从而实现性能、能效和灵活性之间的最佳平衡。它是应对复杂计算需求的核心技术之一。
异构计算架构的核心优势
多种计算单元组合、任务分配机制和协调工作机制是异构计算架构的核心要素。结合多种计算单元:结合不同类型的控制部件,例如 CPU、GPU、TPU、FPGA 等等,优化每个模块的特定任务或工作负荷。比如 CPU 擅长处理逻辑判断、控制过程和多样化的通用任务;GPU 擅长图像、视频、深度学习等大规模数据运算,拥有大量的并行计算模块;FPGA/ASIC 可以根据具体算法进行高度定制,在功耗和实时性方面具有优势。
任务分配机制:通过向不同的任务分配不同类型的控制部件,异构架构可以提高系统的整体能效比和性能,实现任务的并行计算和优化。系统将根据工作负载类型将任务分配给最合适的硬件模块,从而最大限度地利用整个资源。
协调工作机制:异构计算不是让每个控制部件“各行其是”,而是要有良好的编程框架和通信机制,保证不同模块之间的数据传输和任务调度高效有序。例如,选择共享或特殊的高速缓存、高速互联接口、统一的编程模型或驱动层抽象。
异构计算的优点是提高性能、提高能效比、适应多样化需求、缩短开发进度。通过使用各种优化控制部件,可以显著提高系统的整体性能和响应速度。例如,在深度学习任务时,GPU 并行计算能力能显著加快模型训练,减少训练时间,从而在大规模数据集的处理中大大提高性能。
能效比提高,异构架构可以在相同的功耗下提供更高的计算能力,根据不同类型的工作负载分配适当的控制部件。例如 CPU 处理计算密集型任务后效率较低, GPU 它可以为这些任务提供更有效的计算,从而降低能源消耗。与此同时,FPGA 等待硬件可以根据任务的需要进行定制,进一步优化性能和能效。
适应多样化需求,提供多种应用需求,可灵活调整异构架构,从科学计算到深度学习,满足不同的运算数据处理需求。
在不重新设计专用硬件系统的情况下,开发者可以利用现有的硬件资源,根据任务需要快速选择合适的硬件加速方案。这样既节省了开发时间,又降低了设计与开发的成本,从而加速了产品的推出。
典型的异构计算架构案例
下面列举一些异构计算架构的典型案例,展示如何整合多种控制部件。(CPU、GPU、NPU、FPGA 等等)协同优化性能、能效和灵活性。
苹果等智能手机领域 M1 Ultra,该芯片包括 CPU、GPU、NPU 多个单元,8 核(4 性能核 4 能效核)CPU 16处理通用任务 核 GPU 加快图形渲染和机器学习推理,16 专用核加速器 NPU,支持即时图像处理(例如电影模式的视频分割)。
就合作、视频处理而言,CPU 调度任务,GPU 加快特效渲染,NPU 实时分析人脸焦点。在能效提升方面,能效核处理后台任务,性能核聚焦高负荷场景。与传统场景相比 SoC,M1 Ultra 在 AI 任务(属实时语义分割)能效提升 3 倍数,续航能力增加 20%。
特斯拉等智能驾驶领域 HW4.0,这个芯片结构包括 GPU、NPU、FPGA 模块,AMD 定制 GPU 处理图形渲染与传感器融合,自研 ASIC(Hardware 4.0)加快 BEV(鸟瞰图)感知和路径规划,FPGA 处理即时雷达信号滤波。
关于合作、感知层面,NPU 并行计算 8 摄像头 雷达数据,导出目标检测结果;管理层,GPU 模拟驾驶场景,CPU 执行车辆控制指令。这种结构模式具有明显的效果,例如延迟降低到 20ms 下面,支持纯粹的视觉战略 FSD(Full Self-Driving)功能。
例如,数据中心领域 NVIDIA DGX 这个芯片架构包括H100。 CPU、GPU、DPU 模块,AMD EPYC Genoa 处理 I/O 和系统管理,8 块 H100 GPU(NVLink 互联)加快 AI 训练,BlueField-3DPU 卸载网络和存储任务,释放 GPU 算率。合作、训练阶段、GPU 执行矩阵运算,DPU 预处理数据(例如压缩) / 解密);推理阶段,GPU CPU 协同处理低延迟请求(如实时推荐系统)。这种结构的有效性体现在训练万亿参数模型的效率上。 能效比达90% 30 TFLOPS/W。
谷歌等边缘计算领域 Edge TPU,采用专用 ASIC 配有协处理器,Edge TPU 仅支持 INT8 量化模型,针对边缘推理提升,功耗低 MCU(Cortex-M)传感器数据输入的管理。就合作、预处理而言,MCU 在推理方面,完成数据滤波和格式转换,Edge TPU 执行 MobileNet-SSD 模型(物体检测),延迟10ms。与通用芯片相比,功耗降低 体积缩小75% 50%。<10ms。相比通用芯片,功耗减少 75%,体积缩小 50%。
总结
通过任务,异构计算架构通过 - 精确匹配硬件,在性能、功耗、成本等关键指标上取得突破,成为高性能计算,AI、核心基础设施,如边缘计算。未来, Chiplet、结合存算等技术,异构计算将进一步释放硬件潜力,推动智能计算向更高能效、更低延迟发展。
阅读更多热门文章
加关注 星标我们
把我们设为星标,不要错过每一次更新!
喜欢就奖励一个“在看”!
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




