前谷歌大佬离职创业，不到一年造出GPT3.5和Gemini Pro，惨痛忠告：GPU简直菜鸡，就像是买彩票！

AIGC动态2年前 (2024)发布 admin

2,084 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-4-0125-preview
【摘要评分】 ★★★★★

文章摘要

【关键词】 谷歌大佬、离职创业、GPT3.5、Gemini Pro、多模态

前谷歌高级研究科学家Yi Tay离职后成立了大模型公司Reka，不到一年时间，便从零开始训练出了能与GPT3.5匹敌的大模型Reka，以及多模态大模型Gemini Pro。Yi Tay在谷歌期间对多个知名大型语言模型如PaLM、UL2、Flan等做出了贡献，并参与了大型多模态模型如ViT-22B和PaLI-X的研究。

在Reka的发展过程中，Yi Tay和他的团队面临了多重挑战。首先是计算能力的获取，他们发现即使是相同型号的GPU或TPU，不同硬件提供商的集群质量也存在巨大差异，这让训练模型的过程充满了不确定性。此外，集群问题频发，从轻微的烦恼到完全不可用的情况都有，导致了大量的时间和资源浪费。

Yi Tay还分享了他们在多集群设置和野鸡代码方面的痛苦。由于缺乏统一的训练基础设施，他们不得不自行开发多种内部工作流程来解决问题。此外，他们发现外部代码库的质量普遍不如Google内部的代码库，这给他们的工作带来了额外的挑战。

尽管面临种种困难，Yi Tay和他的团队采取了“多一些YOLO，少一些原则”的策略，通过少数几次的大规模尝试，成功训练出了强大的模型。这一过程虽然充满了挑战，但也是一次充满乐趣的探索之旅。

最后，Yi Tay总结道，在这个过程中，他们不仅成功创办了公司、筹集了资金、购买了芯片，还让模型的性能达到了与Gemini Pro/GPT 3.5相匹敌甚至超越的水平，这一切都是从零开始实现的。