对话复旦大学教授肖仰华：千亿大模型可能有极大“水分”下，如何用更优质的数据发展中国AI技术？｜钛媒体AGI

1,998 0 0

文章摘要

在AI大模型技术的发展中，数据的质量和数量成为了关键因素。随着模型规模的不断扩大，对数据的需求也在不断增长。然而，据Epoch AI的数据显示，预计到2028年，AI大语言模型将耗尽可用的人类数据，这表明未来模型的效果可能达到瓶颈，难以实现更智能的通用人工智能（AGI）。

复旦大学计算机科学技术学院的肖仰华教授在2024年外滩大会上提出，AI大模型的发展本质上是数据工程的问题。他指出，当前大模型对数据的使用效率低下，且存在大量无意义或错误率高的数据。为了提升大模型的技术能力，他建议发展合成数据、私域数据和个人数据训练。

合成数据是通过在原始数据基础上进行思考、反思、关联和融合来生成的新数据，这对于提升大模型的理性能力至关重要。私域数据，即垂直行业中的高质量数据，如果被有效利用，可以使大模型成为行业专家。个人数据则是指利用手机等终端收集的数据，这些数据的结合有望实现个性化的大模型服务。

尽管大模型展现出了重要的能力，但它们仍面临着“幻觉”现象，即生成不正确、无意义或不真实的文本。这一现象的主要原因是缺乏高质量数据的支持。因此，提高数据的质量和多样性对于大模型技术的发展至关重要。

肖仰华教授还提出了对数据消耗的三个技术方案：合成数据、私域数据和个人数据。他强调，数据的评估、筛选和训练应该是一个整体，需要注重数据的使用方法。他还指出，尽管大模型的参数量在增加，但其智商和理性能力并没有相应的增长。

对于合成数据的前景，存在一些怀疑和争议。OpenAI的创始成员安德烈·卡帕蒂认为，尽管合成数据对创造下一代大模型有帮助，但其多样性和丰富度可能不足。他提出，当前的大模型存在许多无用信息，而未来的模型应该能够更有效地利用数据。

肖仰华教授反对“机器取代人类”的观点，他认为技术的发展应该以人为本，没有人的文明是没有意义的。他强调，大模型的到来应该促使人类回归价值本原，专注于真正有价值的事务。

展望未来，肖仰华教授认为，下一代万亿级参数的GPT模型可能不需要过多的数据，而是需要精炼的数据。他预测，生成式AI大模型的泡沫终将破裂，因为优质数据的生产速度有限，合成数据的质量控制存在挑战，且人类的认知水平可能限制我们对超级智能的理解。他强调，AI的发展应该促使所有行业回归价值本原，推动人类专注于真正有价值的事务。