AI模型不再依赖英伟达GPU?苹果揭秘自研大模型

2024-08-06

 

近年来,梁浩斌爆发了。 AI 计算能力需求,英伟达 GPU 无论是自动驾驶还是自动驾驶,成为最大的赢家。 AI 大型模型,如特斯拉,小鹏,OpenAI、字节跳动和其他制造商正在争相购买英伟达达 GPU 商品,获得足够的计算率,建立自己的计算中心,用来训练不同的应用。 AI 模型。

 

AI 该领域的明星也创造了英伟达的市值超过3亿美元,并在短时间内达到世界第一的位置。然而,苹果正以不变应万变。 7 根据苹果公司在月底披露的官方论文,苹果自主研发的大模型 AFM 在背后,完全没有英伟达。 GPU 的身影。

 

选择谷歌芯片进行苹果大模型训练。

 

最近苹果公布的一篇技术论文,阐述了苹果在端侧和服务器侧的大模型。苹果基础模型是在模型预训练期间进行的。 AXLearn 根据苹果的介绍,框架上练习,AXLearn 这个框架是苹果公司的 2023 每年发布的开源项目,这一框架是基于这一框架。 JAX 和 XLA 在此基础上,允许模型在各种硬件和云平台上进行高效、可扩展的训练,包括 TPU 还有云和本地的 GPU。

 

苹果使用数据并行、张量并行、序列并行和完整分块数据并行。(FSDP)搭配可以沿着数据规模、模型规模、序列长度等多个维度扩展训练。

 

在这些人中,苹果 AFM 服务器端大型模型是苹果最大的语言模型,这个模型在 8192 个 TPUv4 预训练是在芯片上进行的,这些芯片是配置的。 8*1024 一个芯片集群,通过数据中心网络(DCN)连接。预先训练有三个阶段,首先使用。 6.3 万亿个 Tokens 开始,然后使用 1 万亿个 Tokens 继续训练,最后使用 1000 亿次 Tokens 扩展前后文长度。

 

但在 AFM 在端侧模型上,苹果对此进行了大幅修剪,论文披露 AFM 端侧模型是一种拥有 30 十亿参数模型,这个模型是从 64 在1亿参数服务器模型中蒸馏出来,而这种服务器模型则是完整的。 6.3 练习数以万亿计的参数。

 

不像服务器端模型,AFM 谷歌选择了端侧模型的芯片。 文章中的信息显示TPUv5,AFM 端侧模型是一个原因 2048 个 TPUv5p 在芯片组成的集群中进行练习。

 

谷歌在去年 12 月发布了 TPUv5p,面向云端 AI 加速,谷歌被称为“迄今为止最强大、最可扩展、最灵活的人工智能加速器”。

 

TPUv5p 在 bfloat16 可以在精确度下提供 459 teraFLOPS(每秒都可以执行 459 万亿次浮点运算)计算率; Int8 精度下,TPU v5p 能够提供 918 teraOPS(每秒都可以执行 918 万亿次整数运算);支持 95GB 的 HBM 内存,带宽高达 2.76 TB/s。

 

与上一代相比 TPU TPUv5,v4p 完成每秒浮点运算频率翻倍,内存带宽是上一代的三倍,训练大模型速度提升 2.8 倍,而且性价比是上一代的。 2.1 倍。

 

除苹果外,谷歌目前正在使用。 TPU 还有谷歌自己的系列芯片进行大模型训练。 Gemini、PaLM,以及 OpenAI 创建了前副总裁 Anthropic 所推出的 Claude 大型模型,上个月 Anthropic 发布的 Llama 3.1 405B 也被认为是最强的开源模式。

 

苹果,谷歌,Anthropic 这个案子,证明了 TPU 模型训练能力。但是与英伟达相比,TPU 现在模型应用领域还只是冰山一角,背后还有更多的大型企业,包括 OpenAI、特斯拉、字节跳动等巨头,主力, AI 英伟达达仍然广泛应用于数据中心。 GPU。

 

 

英伟达的挑战者

 

一直以来,围绕着它 CUDA 创建的软件生态,就是英伟达。 GPU 这一领域最大的环城河,特别是目前 AI 该领域发展加快,市场火爆,英伟达 GPU CUDA 研究与开发生态更加稳定,AMD、尽管英特尔和其他制造商正在努力追求,但目前还没有看到威胁英伟达地位的可能性。

 

但是市场的火爆不可避免地会吸引更多的玩家进入,挑战英伟达,或是在 AI 希望在广阔的市场空间中分得一杯羹。

 

第一,英伟达在 GPU 这个领域的最大对手 AMD ,一月份有研究人员在今年一月。 Frontier 在超级计算集群中,应用其中。 8% 左右的 GPU,训练出一个 GPT 3.5 大模型的等级规模。而 Frontier 超级计算集群是完全基于的 AMD 硬件的,由 37888 个 MI250X GPU 和 9472 个 Epyc 7A53 CPU 构成,这项研究也取得了突破 AMD 为了突破先进的分布式训练模型硬件难点, AMD 大型平台训练模型验证了可行性。

 

同时,CUDA 今年生态也在逐渐破灭, 7 月英国公司 Spectral Compute 引入了能为 AMD GPU 原生编译 CUDA 源代码解决方案,大大提高了 AMD GPU 对 CUDA 适应效率。

 

英特尔的 Gaudi 3 同时在发布时也直接对比英伟达达。 H100,并宣称在模型训练速度和推理速度上各自比英伟达 H100 提升了 40% 和 50%。

 

除芯片巨头外,还不乏初创企业的影响。例如 Groq 推出的 LPU、Cerebras 推出的 Wafer Scale Engine 3、Etched 推出的 Sohu 等等。在国内,有一家创业公司走多卡集群训练路线,比如今年摩尔线程。 6 月宣布与羽人科技合作成功实现摩尔线程夸娥(KUAE)千卡智算集群与羽人系列模型解决方案训练适应,高效完成 70 一亿参数羽人语言模型 YuRen-7b 练习测试。

 

基于多功能的摩尔线程夸娥方案 MTT S4000 GPU,该 GPU 使用第三代 MUSA 核心,单卡支持 48GB 显存容量和 768GB/s FP16显存带宽 算率为 100TFLOPS。值得注意的是,MTT S4000 在摩尔线程的帮助下,计算卡可以完全适应当前的自研开发工具 CUDA 实现软件生态,实现 CUDA 代码零成本转移到 MUSA 平台。

 

天数智芯还与智源研究院、爱特云翔合作,提供天数智芯 100 基于自主通用的加速卡,构建计算率集群和全过程技术支持,实现 GPU 的大模型 CodeGen(高效编码)项目,可以通过中文描述生成。 C、Java、Python 代码可以实现快速编码。

 

此外值得注意的是,国内还有一家走路。 TPU 路线的 AI 芯片公司-中昊芯英。这家公司在 2023 年底,国内首款量产产品在年底推出。 TPU AI 训练芯片“瞬间”,据报道,与英伟达达相比,在处理大模型训练和推理任务后 A100,性能提升接近 能耗降低150% 单位计算率成本仅为30%。 A100 的 42%。

 

当然,除了芯片公司,根据现有信息,目前主流的云服务提供商,如上面提到的谷歌、亚马逊、微软、Meta、阿里巴巴、字节跳动、百度、华为等。都有自主研发芯片的计划,包括用于 AI 大型训练芯片。

 

 

写在最后

 

从长远来看,自研芯片是云服务提供商有效降低算率成本的途径之一, AI 当大型模型训练成为云计算的重要用途时,自研 AI 自然,培训芯片也是云服务制造商的长期计划。作为一个消费电子巨头,苹果已经迈出了一个重要的一步,那就是摆脱对英伟达的计算依赖,而且还有很多挑战者无法忍受。星星可以燎原,英伟达可以燎原。 AI 训练领域的地位,也许没有看上去那么稳定。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com