Karpathy 4小时AI课程上线,初学者将从零开始构建GPT-2。

2024-06-14

【导读】距离上次的Karpathy AI课程更新后,还有一个多月的时间。这一次,他带着超详细的4小时课程——GPT-2模型,从零开始实现1.24亿参数。


Karpathy大神新一期AI大课又上线了。


这次,他说的是——GPT-2模型重新开始实现124M大小,足有4小时。


Karpathy总结了这段视频的两个字:全面。


以GPT-2(124M)模型结束,我们从空文件开始。



换言之,这就是手把手教程,即使是AI新手看完之后,也会建立GPT-2。


Karpathy说这是从0到英雄。(Zero To Hero)最新视频在系列中。


看看过去的Zero To 在Hero系列中,最长的视频只有2小时25分,这4小时完全创下了最新的记录。


在帖子中,他highlight在最新视频中发布了一些关键内容:


- 首先,构建GPT-2神经网络。


- 接着对其进行提升,实现高效训练。


- 参考GPT-2和GPT-3论文,设置训练操作优化及超级参数。


- 启动模型评估


- 祈求一切顺利,唾感


- 等到第二天早晨,就可以查看模型结果,欣赏模型产生的有趣导出。


短短几个小时,视频的播放量已达11万次。


Karpathy说,这次,「过夜」练习结果,甚至接近GPT-3(124M)模型水平。


对了,Karpathy自己做的封面图片,也很有意思,直接点击英伟达GPU。



网民们在下面评论说,Karpathy就是我的神!


Alexandrr华裔超级天才 Wang说,「你们的视频等于流行歌曲明星发布的新单曲。」。


「Karpathy推出GPT-2『大片』,看看就完事了」。


录像下面,许多网友纷纷为此提供免费课程「打赏」。


下一步,让我们一起来看看这节课讲了什么?


4小时大课,干货满满


最初,Karpathy首先介绍了GPT-2的情况。


OpenAI于2019年首次发布了GPT-2模型,并发布了相关论文和代码。



论文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf


而且这个视频,就是要重现一个1.24亿参数模型的GPT-2模型。


选择这个参数的原因,要明确,GPT-2在发送之前会有一个小系列。(miniseries),其中有4个参数,最大的一个叫做GPT-2。



另外,你可以把模型放在X轴上,把各种下游指标放在Y轴上,然后就可以画出Sacling了。 Law定律曲线。基本上,下游任务的性能随着模型规模的扩大而更好。



Transformer架构1.24亿参数共有12层,通道768个,(channels)。


GPT-2发布已经是五年前的事了,但是现在复制要容易得多,对GPU计算的需求也没有那么大,大概需要一个小时,10美元。


Karpathy说,自己训练模型的GPU来自Lambdathy GPU Cloud,由于他认为这是在云中按需启动GPU案例的最佳和最简单的方法。


接着,第一步是加载GPT-2模型,进入GitHub源代码库,然后点击modle.py。


可以看出,Tensorflow是用来编写这个模型的。


Karpathy尴尬地说,「如今,我们很少使用它,直接开始使用更友好的Pytorch。」。


Karpathy还选择使用Hugginginging,以便更方便地再现。 基于Transformer重建Face上的GPT-2代码,更容易使用。


下一步,从Hugging开始。 导入GPT-2模型在Face页面上。


对GPT-2进行预训练之前,如果想要再现1.5B模型,只需在gpt2后面,-xl。


接下来,Pytorch NN模块最初被定义为以下类别,然后打印键值。


如下是,GPT-2不同参数值和形状的模型内部,W 嵌入token的权重大小为50257, 768。


这个课程分为四个部分,下一步Karpathy从构建到参数微调都给出了非常详细的介绍。


第一节是实施GPT-2 nn.模块。


第2节是速战速决,GPU混合精度,1000ms


Hyperpamats是第三节,AdamW,梯度裁切


四是等待结果!GPT-2、GPT-3复现对比



最后,睡觉得出结论,第二天再看结果。



与GPT-3相比,模型训练的损失也在不断减少。



最后,这4个小时的大课,小编就放在这里。


参考资料:


https://x.com/karpathy/status/1799949853289804266


https://www.youtube.com/watch?v=8pRSU81PU


本文来自微信微信官方账号“新智元”(ID:AI_era),编辑:桃子,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com