Karpathy新教程爆火网友抢着送他H100:从头复现GPT-2训练
时间:2024-06-01  浏览次数:663

  挑战成功本身并不意外,但是只花费20美元、90分钟完成训练,Loss和评测还超越原版,就!有!点!过!分!了!。

  不过有人按照教程用H100跑了一把,不仅训练时间更短,还更省钱了:43分钟完成,只花14美元。

  但1.5B大杯版,照计算要花1周时间和2500美元,有点玩不起了,主要他手里也没有H100。

  原版WebText从未公开,无法在控制变量在相同条件下实验,另外今天的互联网数据分布,也可能与5年前大不相同了。

  另外有网友注意到,训练时的GPU利用效率也比OpenAI的工作高,不过Karpathy表示主要是由于用了单个云服务节点,不需要考虑服务器间通信问题。

  自今年二月份再次从OpenAI辞职之后,Karpathy已经用C语言搞出不少大模型成果,从Llama到GPT玩了一遍。




上一篇:涨涨涨超4800只股票!盘后板块还有大消息   下一篇:Y系列代表作AKG多色彩头戴式耳机Y40评测
推荐内容