标签:高效训练

五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活

2019年2月,OpenAI发布了具有15亿参数的GPT-2模型,该模型在文本生成方面表现出色,充分利用了预训练的Transformer架构,被认为是大型预言模型的始祖。现在在...

快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模

本文介绍了一款名为可灵的全新国产视频生成大模型,它是快手公司推出的产品级应用。可灵采用了类似Sora的技术路线,融合了多项自研技术创新,生成的视频不仅...

Karpathy新教程爆火,网友抢着送他H100:从头复现GPT-2训练

AI领域的大神Karpathy近日成功复现了OpenAI的经典成果GPT-2,而且仅用了20美元、90分钟就完成了训练,令人震惊的是,其Loss和评测还超越了原版。他使用的是A1...

中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹

面壁智能,一家源自清华大学的创业公司,近期在大语言模型领域取得了显著进展。该公司致力于优化语言模型,以提高效率并降低成本。今年2月,面壁智能发布了第...

被低估的面壁:打造出不输 OpenAI 的 Scaling Law 曲线

面壁智能团队在大模型领域的探索与实践面壁智能团队,由曾国洋担任CTO,自2020年GPT-3发布后开始训练大模型,逐渐认识到提升模型效果是大模型训练的根本目标...