超越CPU/GPU:NPU怎样让AI“轻装前进”?
电子爱好者网报道(文章 / 李弯弯)NPU 这是一种特殊的人工智能(AI)计算设计的处理器主要用于与神经网络相关的高效计算(如矩阵乘法、卷积、激活函数等)。).与传统相比 CPU/GPU,NPU 特别适用于移动终端、边缘计算和内嵌式计算,在能效比和处理速度方面更具优势。 AI 情景。
NPU 核心特征有几个:一是专用结构,支持并行计算大量矩阵运算,以促进神经网络计算(例如 INT8/FP16 低精度计算),典型的操作包括卷积、池化、注意机制(Transformer)等待;二是高能效比, GPU,NPU 功耗较低,适用于手机,IoT 对于续航要求较高的场景,如设施;三是低延迟,专为 AI 推理(Inference)和训练(Training)提高,减少数据运输费用;第四,异构计算,常和 CPU、GPU、DSP 等待协调工作(如手机 SoC 里的" AI 引擎")。
NPU 在各种类型中得到广泛应用 AI 驱动设备和系统,典型场景包括:智能手机,实现实时图像增强(例如华为麒麟芯片) AI 拍照)、语音助手、AR/VR 互动等;可穿戴设备,支持低功耗本土化 AI 计算(例如智能手表的健康监测)。
自动化驾驶,处理传感器数据,实现实时物体检测、路径规划和决策(例如特斯拉 FSD 芯片)。在典算力需求方面,L4 级别自动驾驶车辆 NPU 算力超 1000 TOPS。
智能摄像机、面部识别、异常行为检测等边缘计算。物联网设备,本地化语音助手(如智能音响唤醒词识别)。
加速数据中心 AI 模型训练与推理,如谷歌 TPU(张量控制部件)。工业质量检验,推理延迟压缩 20ms 内部,布署量逐年增加 120%。
典型 NPU 如果移动端有华为麒麟芯片(达芬奇 NPU),用于手机 AI 摄影、语音识别等;高通; Hexagon DSP NPU(骁龙平台),支持 AI 降噪,增强图像;苹果神经网络发动机(A/M 系列芯片),Face ID、Siri 等待功能的底层支持。
特斯拉拉在边缘计算和自动驾驶侧 FSD 芯片,内置 NPU 处理自动驾驶视觉模型;地平线征程芯片(BPU 用于智能驾驶感知计算的架构)。
云端,有寒武纪 MLU 系列,云端 AI 训练 / 加速推理;英伟达 Grace Hopper(集成 NPU 大模型推理模块)。
NPU 核心技术包括量化压缩,支持 INT4/INT8 低精度计算,提高能效;稀疏计算,绕过零值计算,加速稀疏模型(例如 Pruning 后的网络);优化编译器,特殊工具链(如华为) Ascend CANN、高通 AI Engine)将框架(TensorFlow/PyTorch)模型转换为 NPU 指令。
就趋势而言,NPU 有几个明显的发展趋势:光电结合计算,结合光子技术,进一步提高计算能力和能效;神经芯片模仿生物神经元结构,实现更低的功耗 AI 计算;Chiplet 技术,多通过 NPU 因特网提高了算率(例如 Cerebras 的 Wafer 级芯片)。
总的来看,NPU 作为 AI 计算的关键硬件正在深刻改变人工智能技术的着陆方式。它的高并行性、低功耗和硬件加速性使其成为移动终端、自动驾驶和边缘计算的首选解决方案。随着技术的发展和市场需求的爆发,NPU 将在未来 AI 在生态学中起着更重要的作用。
阅读更多热门文章
加关注 星标我们
把我们设为星标,不要错过每一次更新!
喜欢就奖励一个“在看”!
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




