大模型落地，苦「最强」久矣

1,739 0 0

文章摘要

本文探讨了AI领域中对“第一”和“最强”大模型的盲目追求问题，指出这种追求可能导致对复杂场景的简单化处理，忽略了用户的真实需求。文章首先提到，尽管AI打榜成为行业惯例，但这种做法并不总是正确的。通过一篇反讽文章的例子，文章揭示了一些大模型在测试榜单上的造假行为，这些模型为了刷榜而过度拟合，导致泛化能力下降，失去了创造和思考的能力。

文章进一步分析了大模型产业中的傲慢与偏见，指出基准测试失真不仅是标准问题，更是宣传和商业模式问题。在参数不断膨胀、成本不断增加的背景下，大模型玩家需要证明自己的价值，而打榜成为了一种捷径。然而，技术落地与研究不同，面对不同需求，往往对应着不同的最优解法，因此所谓的“最强模型”并不存在。

文章强调，任何单一维度的“第一”“最强”叙事都是对复杂场景的简单化。在技术至上者的傲慢和对用户真实需求的偏见中，行业更需要的是需求被看见、过程有的选、结果更适合。亚马逊云科技的例子表明，让用户有选择权是进步的基础。亚马逊云科技推出了多种版本的大模型，让用户在性能和成本之间做出选择，并通过Amazon Bedrock平台支持多种模型，让用户根据需求选择最合适的模型。

最后，文章指出，用户的真实需求被看见、被尊重、有选择，是一切进步发生的基础。过度关注单一指标可能会导致真实目的被扭曲，牺牲其他方面的利益。AI领域的进步应该基于对用户需求的理解和尊重，而不是单纯追求“第一”和“最强”的标签。