类脑计算,进入边缘AI

05-30 09:49

现在,人们越来越希望“冯·诺依曼架构”退休。冯·诺依曼架构因储物墙和功耗墙而越来越触及瓶颈。


类脑芯片是突破“冯·诺依曼架构”的路线之一,是一种高度模拟人脑计算原理的芯片。如果类脑芯片更像人脑,它将被赋予一个新的名称——神经拟态计算/神经形态计算(Neuromorphic Computing),它是数字芯片和AI计算的重要发展路线。



神经拟态计算被认为颠覆了边缘AI行业的存在,因为它的功耗太低了。完美的神经拟态芯片可以用比传统解决方案低1000倍的能耗来解决问题,这意味着你可以在固定的功耗预算下包装更多的芯片来解决更大的问题。


当然,目前神经拟态计算还没有达到这样的水平,但仍然有能力将芯片的功耗降低几倍或几十倍。比如IBM之前推出的类脑芯片“北极”(NorthPole),Nvidiaa与4nm节点进行比较。 H100 与GPU相比,NorthPole的能效提高了5倍。


现在,神经拟态已经逐渐渗透到边缘AI领域,甚至改变MCU。


第一款商用类脑MCUMCU推出Innatera


最近,创业公司Innatera宣布推出一款名为Pulsar的新型脉冲神经Cpuutera(SNP)。与传统的AI处理器相比,Pulsar是一种以高能效实施边缘AI推理的神经形态信号转换器,其延迟比传统的AI处理器减少100倍。


另外,从功耗的角度来看,该系统利用内部低功耗PLL和软件控制的电压域来降低动态和待机功耗。在业余时间,多种睡眠模式进一步优化了能耗。Innatera声称,处理器的能耗比传统的AI处理器低500倍。


完全可编程的脉冲神经网络集成了Pulsar的底层结构。(SNN)结构,对异步、稀疏数据的计算进行了优化。所以,Pulsar提供了一个异构的计算结构,SNNN、为了优化工作负载分区,CNN与传统CPU任务分离。


Innatera将Cpu设计成灵活的,支持神经元和突触级参数化的跨网络拓扑,以满足音频、振动传感等时空工作负荷的需要。SNN结构和32位RISC支持浮点,以支持混合和工作负荷。-V CPU和32-MAC CNN加速器一起工作。FFT/IFFT引擎为时频域应用提供了额外的计算能力。



该处理器的内存分系统包含384 通用SRAMKB、128 专门用于CNN运算32 为了通过低功耗转换保持应用状态,KB保留SRAM。集成外设支持包括I2C支持、UART、SPI、JTAG、ADC、分散收集DMA引擎支持摄像头接口和GPIO,以促进峰值数据处理。电源电压为1.6V,该系统频率为160MHz,包装尺寸为2.8mm x 2.6mm/36pin WLCSP,工作温度-40℃~125℃。


软件端,Pulsar由Talamo 基于PyTorch的模型训练与直接硬件投影相结合,SDK提供支持。开发者可以使用Python原生编译器或RISC-V标准GCC工具链来安排模型。


首款Polyn神经拟态模拟信号处理芯片流片


近期,Polyn 根据专有神经拟态模拟信号处理平台,Technology宣布其首个基于专有神经拟态的模拟信号处理平台(Neuromorphic Analog Signal Processing, NASP)NASP芯片进入认证阶段,预计2025年第二季度正式投入市场,成功模拟芯片正式流片。


该芯片具有超低功耗和实时信号处理能力,在实施信号推理时功耗低于100。μW,NeuroVoiceoicee等一些应用领域 甚至VAD模型也可以降至30μW。这种低能耗使得它特别适用于功耗有限的环境,如耳机、可穿戴设备、智能轮胎和预测性维护传感器节点。此外,NASP可以将原始数据减少1000倍,显著提高隐私保护水平,减少对云服务的依赖,特别适用于医疗卫生等对数据安全要求极高的领域。NASP在技术文档中发布了MobileNet推理。 V.2时对比树莓派3B 还有JETSON 结果是TX1。



NASP是Polyn技术创新的核心。它是一种混合模拟-数字架构,通过模拟电路模仿生物神经元的分布式和超并行操作。该系统由计算放大器和可编程电阻组成,可以直接原始推理传感器数据,而无需依靠中央处理器或数字预处理信号。


与传统的传感器数据处理方法不同,NASP前端可以在原始音频输入阶段进行过滤和压缩,只导出后续处理的关键特征向量。这种方法不仅提高了效率,还完成了对信号的“理解”,从而显著减少了对云的带宽需求和依赖。


当它充当边缘信号传感器时,它可以在不数字化模拟信号的情况下使用神经拟态计算和处理原始传感器数据。出于这些原因,企业将其称为第一个无需模数转换器。(ADC)神经拟态模拟TinyML芯片可以直接在传感器旁边使用。



选择“固定”NASP平台 双模块结构的灵活性:


  • 固定部分:通过硬连线模拟电路实现,从原始传感器数据中获取关键特性;
  • 灵活性部分:采用标准数字逻辑或低功耗微处理器,负责分类和解释。

这种混合架构将迁移学习引入硬件。开发人员可以通过重新训练灵活部分来快速适应新的任务,例如使用原本用于步态识别的加速度计数据进行跌倒检测,从而大大缩短商品迭代周期,降低整体复杂性。



Polyn不仅独立为NASP开发了编译工具链,而且在设计过程中,Polyn采用了Cadence的Virtuoso和Innovus工具,整合了模拟和数字电路设计,并在55纳米的CMOS工艺中实现了流片。


现在,Polyn正和SkyWater、普利司通、英飞凌、TDK等行业领先公司进行了深度合作。虽然其第一个芯片致力于语音处理,但未来的潜在应用领域包括振动分析、生物信号解读、人机交互等诸多领域。


2023年12月,英飞凌披露与Polyn的合作,双方正在合作开发高级轮胎监测产品。英飞凌将提供新一代TPMS传感器,具有轮胎振动信号检测功能,并利用Polyn的NFE对传感器振动数据进行预处理。


弗劳恩霍夫开发边缘AI加速器


弗劳恩霍夫集成电路研究所IIS于今年3月开发了一种用于处理脉冲神经网络的方法(SNN)AI芯片。受大脑神经的启发,脉冲神经网络SENNA的推理加速器由人工神经元组成,可以直接处理电脉冲(峰值)。它的速度、能效和紧凑的设计促使SNN直接应用于生成数据的区域(即边缘设备)。


SENNA是一种用于快速处理AI应用中低维时间序列数据的神经拟态芯片。新版本由1024个人工神经元组成,芯片面积小于11。 mm²。该芯片响应时间短至20纳秒,可以保证精确记时,尤其是在边缘时间的关键应用中。


因此,它的优势真正体现在基于事件的传感器数据实时评估和闭环控制系统中;例如,当使用AI控制小型电机时。SENNA也可以用来在通信系统中获取AI升级的数据传输。在这里,AI处理器可以根据需要调整信号流和接收程序来分析信号流,从而提高传输的效率和性能。



SNN之所以如此节能,是因为神经元只被少量激活,并对特定事件做出反应。SENNA利用其峰值神经元,充分利用了这种节能优势。人工神经元能准确地投射SNN的时间行为,因为它完全并行的处理结构。SENNA还可以通过其集成顶峰接口直接处理基于顶峰的输入输出信号。这样,它就能无缝地适应基于事件的数据流。SENNA凭借其新颖的结构,解决了其它边缘AI处理器无法比拟的能效、响应速度和多功能之间的衡量问题。这样就特别适合资源有限的应用,这些应用需要在纳秒范围内快速响应,“Fraunhofer MichaelaelIIS嵌入式AI集团主管 解释Rothe。


目前的SENNA参考设计是专门为22nm制造工艺设计的。这就是说,SNNCpu可用于各种应用中的芯片,并能经济有效地实现。其设计是可扩展的,能够适应特定应用、性能要求和目标硬件在芯片生产前的特殊功能。但是即使在芯片制造之后,SENNA仍然保持着最大的灵活性,因为它是完全可编程的。使用的SNN模型可以一次又一次地更改并重新传输到SENNA。为使开发者能够尽快快速地实现AI模型,Fraunhofer IIS还为SENNA提供了一个全面的软件开发工具包。



究竟什么是神经拟态?


目前世界上几乎所有的神经拟态芯片结构都是一样的,由神经元计算、突触权重存储、路由通信三部分组成。然而,关键点在于亮点——一个是模型,另一个是设备。


第一,SNN(脉冲神经网络)在模型方面得到了广泛的应用。脉冲神经网络与传统神经网络相比,(SNN)其结构更具“神经”特征。通过矩阵卷积或矩阵乘法实现传统神经网络的信号传播,而SNN在传播过程中使用了更符合人脑的神经突触结构。在SNN网络中,当脉冲信号积累到一定程度时,神经元会向下一个神经元发送代表“1”的信号,然后自身的膜电位会恢复到一个较低的水平,并且会在一段时间内进入不应期,无法再次发送信号。


时空动态是SNN的一个重要特征。SNN可以通过引入时间维度来实现异步计算。SNN擅长处理时空动态信息,特别适合结合事件驱动传感器(如动态视觉传感器DVS)。目前,大多数制造商选择SNN 应对不同场景的CNN异构方案。



第二,在设备实现中,根据材料、设备、电路,分为模拟电路主导神经形态系统(数模混合CMOS型)、全数字电路神经系统(数字CMOS型)、数模混合和神经形态系统(忆阻器是一种替代技术)基于新型设备。


数字CMOS是目前最容易产业化的方式。一方面,技术和制造成熟度高;另一方面,没有模拟电路的顾忌和限制。然而,数字CMOS型只是最初的类脑芯片,并不是一个完全模拟人脑神经形态的器件。


Polyn是实现数模混合CMOS的一种方式,通过对比可以直接省略ADC,可以通过可编程电阻直接处理到传感器的原始信息中。


忆阻器(Memristor)那就是现在科学界也在探索的技术,忆阻器的魅力在于,它不仅是一种存储单元,而且可以计算!想象一下,如果你的硬盘不仅可以存储数据,而且可以直接进行深度学习计算,那么AI训练的速度就会大大提高。这种特性使忆阻器成为存算一体化结构的核心部件。在未来5~10年内,忆阻器存算一体化结构将迅速发展,预计将进入商业应用。



类脑芯片的主要类型和R&D进度,以及电子工程世界。


当前,国内也有许多企业正在研究神经拟态计算芯片,其主要目标是边缘AI。


国内研究包括清华大学、浙江大学、复旦大学、中科院等顶尖名校和机构。与此同时,近两年创业公司不断涌现,如灵汐科技、时识科技、中科神经形态等。尤其是清华大学的天机芯和浙江大学的达尔文芯片最具代表性。



边缘AI正在被颠覆


总而言之,受人脑启发的神经拟态计算正在颠覆边缘AI场景。


与传统的冯·诺依曼结构不同,神经芯片模拟人脑的神经元和突触结构,具有超低功耗和并行计算能力,非常适合边缘设备上的AI应用。


说到底,动不动就能提高几百倍的能效,可太香了,谁不想要。


现在,英特尔的Loihi、在边缘AI场景中,IBM的TrueNorth等神经形态芯片已经显示出巨大的潜力。


上述制造商已经开始在商业场景中正式尝试使用神经拟态芯片。虽然他们可能不会完全取代现有的MCU或嵌入式芯片,但他们可能不会完全取代现有的MCU或嵌入式芯片,但他们肯定会在特定的场景中得到很强的应用。边缘新革命即将到来。


本文来自微信微信官方账号“电子工程世界”,作者:付斌,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com