奥特曼百万年薪挖角谷歌TPU人才,想砸7万亿实现。「芯片自由」?

2024-06-11

编辑:乔杨 好困


【新智元导读】最终,OpenAI自主研发芯片的计划取得了实质性的进展。根据SemiAnalysis最近的一篇文章,他们正在从谷歌TPU团队招聘人才,并扩大他们的芯片研发团队。


关于OpenAI在芯片方面的欲望传闻已经很久了。


近几年来,PC和AI行业两次发生了重大半导体供应危机,Sam Altman似乎认为,传统芯片制造商,如台积电、三星代工和英特尔代工,没有足够的生产能力,无法满足全球对AI芯片快速增长的需求。


不仅OpenAI的计算率需要降低对英伟达芯片的依赖度,奥特曼甚至希望为其他公司建造更多的晶圆工厂。


据华尔街日报报道,今年2月,奥特曼会见了软银CEO和台积电的谈判代表,讨论合资事宜,并计划在未来几年内共同建设和运营数十家芯片制造工厂。


亚利桑那州的TSMC新建工厂


不过,造芯片要烧的钱比训练大模型要少,不会多。


据奥特曼个人估计,新建半导体制造设备及相关基础设施的费用可达5-7亿美元。


因为传统的私人风险投资很难一下子花这么多钱,奥特曼曾经去美国商务部长那里讨论,甚至去新加坡和阿联酋见当地官员,寻求国有资产的支持。


经过半年多的筹划和发醇,OpenAI的芯片工作似乎真的要开始了!


谷歌,芯片人才大战 vs. OpenAI


根据SemiAnalysis的最新报道,OpenAI最近开始大规模招募,计划将只有几个人的芯片团队扩展到几十个人。


而且,他们延续了一贯的招聘策略——挖角谷歌。


最近招募的绝大多数研究人员,都是谷歌TPU现任或前任团队成员。


与GPU最初设计的图像处理和实时渲染不同,TPU是谷歌从零开始设计的,专门用于加快机器学习和神经网络的计算,可以更好地处理张量计算问题。


GPU以ALU作为核心部件(高级算术逻辑单元),TPU的核心是矩阵乘法器模块(MXU),矩阵乘法和积累可以以高吞吐量进行。


谷歌TPUv4


虽然TPU的任务没有GPU那么实用,尤其是没有CUDA这样的编程接口,但是它在计算性能和能源效率方面都很出色,尤其是那些经过谷歌团队特别优化的任务。


所以TPU可以说是世界性能/TCO最好的机器学习基础设施(总体成本)。


虽然谷歌的TPU已经取得了如此巨大的成就,但OpenAI芯片团队的工作机会仍然具有许多吸引力。


第一,大公司和创业公司在发展速度世界上的本质差异。


TPU首次发布于2013年,至今年5月推出的最新TPUv6。该团队有十多年的开发经验。在珠玉之前,系统设计和微结构很难有很大的变化,更多的是迭代和渐进的改进。



加入OpenAI就不一样了,在重新设计、重新开发的过程中,成员们有机会尝试更加创新、激进的方法。


而且OpenAI一直都是雄心勃勃的,它们的目标是建立一个由数百万个加速器组成的系统,比GPT-4的练习大几个数量级。


此外,团队合作模式还有很大的不同。


虽然TPU团队也会与DeepMind合作,但是在尾大不掉的谷歌,仍然会遇到许多非技术障碍。


相比之下,OpenAI内部的芯片与模型团队之间的沟通与合作将更加紧密和顺畅。


除此之外,还有薪资的差别。


事实上,Google 在半导体设计领域,TPU团队已成为工资最高的团队之一,工程师的平均收入远高于AMD。、大多数半导体公司,如英特尔、高通等,都可以与领先的企业英伟达相媲美。


虽然OpenAI的基本工资没有那么丰厚,但作为一个没有上市的创业团队,每年向高级工程师提供的价值数百万美元的股权更有吸引力。


由于这些因素的叠加,加上CEO奥特曼本人亲自参与了大部分招聘工作,OpenAI招聘的人才质量令人惊叹。


GPT-4o和Sora模型发布的时候,团队成员的背景,能力的强大总是让网友大吃一惊。


GPT-4o 17人Omni金牌团队首次揭秘!清北上交6名中国科技大学领衔


当SemiAnalysis的记者向同行询问这些挖角的TPU人才时,他们总能得到这样的答案,「她们是我合作过的最好的工程师之一」。


OpenAI之所以看到谷歌的TPU团队,不仅仅是为了获得最先进的技术和人才,更是为了商业竞争。


只有谷歌开发的TPU才能在硅谷众多科技巨头中成功取代英伟达的芯片,并在公司内部部署云服务。


Meta、虽然亚马逊和微软等公司也在自主研发芯片方面做了很多努力,但仍然严重依赖英伟达。


AMD、英伟达等半导体公司在未来相当长的一段时间内仍将成为OpenAI合作伙伴,因此很容易得罪。


只有面对与生俱来的敌人谷歌,OpenAI才敢如此肆无忌惮地挖角。(即使是新闻发布会也必须在谷歌I/O大会的前一天召开)


虽然获得了如此强大的人才队伍,但芯片研发仍然需要付出巨大的努力。


预计OpenAI将于2027年底推出第一代自研芯片。在此之前,他们仍然完全依赖商业芯片。


渐渐地,与微软的关系变得微妙


OpenAI自主研发芯片的决定有点混乱。为什么要烧钱自主研发芯片,依靠微软的资金和Azure云服务的强大算率?


实际上,OpenAI和微软之间的关系已经越来越紧张,毕竟OpenAI对于微软来说是一个非常奇怪的公司。


现在,它本质上仍然是一个完全独立的非营利组织,OpenAI Nonprofit管理。作为一个没有投票权的股东会观察员,微软几乎无法控制OpenAI的发展趋势。


如果OpenAI股东因AGI安全问题要求停止协议,恢复模型的使用权,微软只能服从命令,没有反击的力量。


AGI从所有商业和知识产权许可协议中分离出来。


董事会决定我们什么时候实现AGI。 再次强调,AGI是一个高度自治的系统,在有经济效益的工作中优于人类的表现。这种系统不包括在与微软签署的IP许可和其他商业条款中。这些条款只适用于以前的AGI技术。



所以,双方都在实施自己的目标。「脱钩」计划。


在芯片和算率方面,OpenAI需要逐步分开,微软正试图减少对OpenAI模型的依赖。


比如最近微软投资Inflection AI,并组建自己的团队开发Phi-3、MAI-一等模型,都是出于这方面的考虑。


当前,许多企业客户使用OpenAI技术,包括财富500强企业,拥有超过65%的财富。


微软希望拥有自主研发的GPT-4级LLM,以及一系列满足不同用户需求的模型,以确保OpenAI在Azure的推理服务中被替换。


对于OpenAI来说,购买英伟达芯片并不是最好的选择,因为它想在计算率上自给自足。因此,自研芯片似乎是唯一的出路。


实际上,不仅仅是OpenAI,Meta、同时,微软、谷歌、亚马逊等公司也在大力投资,开发自己的AI加速器。


在英伟达最大用户的同时,这些AI巨头也成为了最强大的竞争对手。



归根结底,在模型训练过程中,计算率已成为最大的支出。若能够将购买芯片资金转化为内部投资,以制造成本部署GPU或TPU,模型成本也将大大降低。


参考资料:


https://www.semianalysis.com/p/openai-chip-team-is-now-serious


https://www.wevolver.com/article/tpu-vs-gpu-in-ai-a-comprehensive-guide-to-their-roles-and-impact-on-artificial-intelligence


本文来自微信微信官方账号“新智元”(ID:AI_era),作者:新智元,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com