ChatGPT和Sora其实限制了我们对大模型的想象？

AIGC动态1年前 (2024)发布 Si-Planet

2,337 0 0

文章摘要

近期，一份关于OpenAI部署Sora所需硬件资源的美国市场研究报告引起了广泛关注。报告指出，在峰值时期，Sora需要高达72万张英伟达H100显卡来支持，对应成本高达1561亿人民币。同时，微软工程师爆料称为了训练GPT-6而搭建的10万个H100显卡导致电网崩溃的新闻也引起了热议。这些事件让人们开始质疑，为了生成文本和视频，耗费巨大资源是否值得。

然而，这种观点可能限制了人们对大模型的想象力。事实上，大模型的应用远不止于生成文本和图像。例如，AI公司第四范式已经在产业界实践了一系列有趣的案例，如生成未来的体检报告和水电机组的运行状况预测，这些都大大超出了ChatGPT和Sora提供的样本。

这些案例展示了生成式AI在“Predict the next X”方面的强大能力，其中X不仅仅是语言模型处理的“语言”，而是更多行业的模态数据。ChatGPT和Sora的成功证明了使用大量数据进行预训练，然后以“Predict the next token”的方式可以产生智能，而这种方法不应局限于文本数据。

为了进一步发挥大模型的价值，我们应该让“Predict the next X”中的X代表更多的未知数，如体检报告、水文数据、监测数值和应急预案等。这些行业大模型需要大量的行业数据和强大的行业知识来生成特定行业的X。例如，声效大模型可以为音乐厅设计最佳的声音体验，这种生成声音体验的能力无法通过预测下一个单词来实现，但可以通过训练专业的行业大模型来生成。

第四范式的AIOS 5.0平台可以接受各种“X”，并基于这些X构建垂直行业大模型，这种方法被越来越多的公司所接受。OpenAI的COO也表示，不需要一个万能的大模型来解决所有问题，而是应该根据具体场景动态调用不同的模型。

总之，ChatGPT和Sora的出现只是开启了一个新的可能性，而“Predict the next X”的X应该有更多的可能性。这些可能性将从各个行业中发展起来，最终可能会加速通用人工智能（AGI）的到来。