2TOPS///W！解密边缘AI芯片低功耗设计的方法

05-18 06:27

电子爱好者网报道(文章 / 边缘是李弯弯) AI 芯片低功耗设计是移动终端、物联网终端等资源有限场景下的关键。在对功耗敏感的应用场景中，如物联网、可穿戴设备、智能家居等。，低功耗设计直接关系到设备的耐力、部署成本和客户体验。

为何边沿 AI 芯片需要低功耗设计？

从应用领域来看，首先设备供电有限，如智能手表、传感器网络、可穿戴设备等。，依靠电池供电，低功耗设计直接决定电池寿命。在太阳能、射频能量收集等自供电系统中，芯片的功耗低于能量收集速度，否则设备无法持续运行。

二是部署环境恶劣。在工业监测、农业物联网等场景下，设备可能部署在电池更换困难或无法接线的区域。例如，桥梁结构监测传感器需要连续运行多年，功耗低于 1mW。过高的功耗会导致芯片发烫，影响稳定性和寿命。例如，在汽车电子中，芯片需要满足 AEC-Q100 低功耗设计可以降低热应力带来的失效风险。

就技术发展而言，第一，能效比（TOPS/W）核心指标，边缘 AI 芯片需要在有限的功耗下提供高计算能力。例如，特斯拉 FSD 芯片以 72W 功耗实现 144TOPS 计算率，能效比达 2TOPS/W，满足实时自动驾驶的需要。低功耗设计可以突破“功耗墙”的限制。比如，传统 GPU 由于移动终端功耗过高(>20W)难以应用，而专用边缘 AI 芯片可以把功耗降低到几百个 mW 级。

第二，热排放和封装成本的限制，高功耗芯片需要配置散热片或风扇，增加体积和成本。比如，桌面 GPU 功耗可达 300W，需要主动排热；而且边缘设备芯片的功耗需要保持在 5W 在内部，可以采用被动散热。低功耗设计可以简化封装要求。比如，选用 Chiplet 技术的边缘 AI 芯片通过 2.5D 在减少散热材料需求的同时，封装可以降低相互连接的功耗。

边沿 AI 低功耗芯片设计方法

就硬件架构提升而言，例如特殊加速器 NPU、DPU 等等，设计针对 AI 计算专用电路(如矩阵乘加)，提高能效比。比如，Google TPU 一般计算单元的冗余操作可以通过脉动阵列减少。例如异构计算架构， CPU（控制）、GPU(并行计算)、NPU（AI 推理)等模块，根据任务类型动态分配计算负荷。轻量级任务由 CPU 处理，复杂模型交给 NPU，防止资源浪费。

还有一些创新的结构模式方向，比如存算一体化，减少数据运输，直接在存储单元周围完成计算，减少 I/O 功耗。实现技术路径包括存内计算和近内存计算。例如，选择脉冲神经网络作为事件驱动结构。（SNN）或者事件相机传感器，只在数据变化时触发计算，降低静态功耗。

从算法和模型优化的角度来看，如模型压缩技术、修剪、去除冗余神经元或权重(稀疏化)、减少计算量；量化， 32 位置浮点模型转换为 8 位置整数，降低乘法器和内存浏览能耗；知识蒸馏，用大模型训练轻量级学生模型，在降低计算需求的同时保持精度。

例如轻量级网络设计，使用 MobileNet(卷积可以深层分离)、EfficientNet(复合缩放)等结构，平衡精度和计算量。再比如动态推理，在推理过程中设置一个检查点。如果低层足够准确，计算将提前结束。近似计算允许非关键值偏差，简化计算(如低精度浮点和放弃策略)。

从动态电池管理的角度来看，DVFS(动态电压频率调节)，根据负荷实时调节电压和频率，例如在业余时间进入低功耗模式(例如 C6 睡眠状态)。多电源区域划分，芯片划分为多电源区域，根据需要打开或关闭(例如，摄像头模块只在检测到运动时供电)。自适应功耗策略，结合负载预测(如 LSTM 动态管理电源状态，预测任务周期。

此外，在软件和系统协同方面，编译器通过指令级并行优化。（ILP）提高内存浏览合并，减少计算周期和能源消耗。操作系统调度，任务级功耗管理，优先考虑低功耗核心处理简单任务，在高负荷下唤起高性能核心。网络层策略，唤醒词检验(例如 Alexa 的 Always-On 方法)，只运行轻量级模型，在检测到关键字后唤起主模型。

总结

边沿 AI 芯片低功耗设计是其在真实场景中着陆的必要条件，直接关系到设备的可用性、经济性和可持续性。边缘通过硬件架构、算法优化、工艺技术等多维协同。 AI 芯片能够满足电池供电、即时响应、低成本部署等核心需求，在毫瓦级甚至微瓦级功耗下运行。

阅读更多热门文章

加关注星标我们

把我们设为星标，不要错过每一次更新！