要想赚钱，AI模型该大该小？贾扬清：论AI模型经济学的技巧

AIGC动态1年前 (2024)发布 aitechtalk

2,091 0 0

文章摘要

在AI社区中，关于模型规模的讨论愈发活跃。一方面，曾经备受推崇的大模型开发原则——Scaling Law，似乎正在失去其光环。去年人们还在猜测GPT-5的规模，而现在这种讨论几乎绝迹。Andrej Karpathy等业界大神甚至感慨大模型规模正在“倒退”。另一方面，市场上性能优秀的小型模型层出不穷，各公司在参数规模、任务处理、反应速度、安全性能等方面展开激烈竞争。

在这样的背景下，一个关键问题浮出水面：在模型快速更迭的市场中，如何最大化LLM模型的商业价值？X.ai创始成员Toby Pohlen提出，如果模型以指数级速度改进，那么训练模型的价值也会以指数级速度折旧。这意味着必须在模型更迭前迅速采取行动获取商业价值，否则上一代模型将迅速贬值。这一观点得到了Elon Musk等人的认同。

贾扬清则用感恩节火鸡的比喻来形象地说明这一现象。他认为，售卖模型就像感恩节前夕的火鸡促销，必须抓紧时间销售，以避免节日过后的贬值。新模型的技术更新就像一个又一个感恩节，只有销售得更快，才能获得更多利润。这一观点在评论区也得到了许多人的赞同。

然而，模型的商业价值究竟由什么决定，又该如何实现呢？贾扬清指出，与大型模型相比，小型模型成本低、应用便利，更易获得商业市场的青睐。他发现，行业趋势在于研发和使用尺寸更小、性能强大的模型。这一趋势与CNN时期的模型发展惊人相似，都是先变大再变小、变高效。

贾扬清回顾了CNN的发展历程。2012年，AlexNet开启了模型大小增长的序幕；2014年的VGGNet是一个规模较大的高性能模型；2015年，模型尺寸开始缩小，GoogleNet和SqueezeNet都追求更小尺寸；此后，模型发展重点转移到维持平衡，如ResNet、ResNeXT等。他还提到了Google的MobileNet，它占用空间小、性能优越，具有出色的特征嵌入泛化能力。

那么，LLM模型未来会遵循和CNN一样的发展趋势吗？贾扬清认为，尽管行业趋势是模型小型化，但这并不意味着要放弃尺寸更大的模型。大型模型的成本确实更高，但通过批量处理和提高总吞吐量，以及对输入和输出token分别计费，大型模型仍有盈利的可能。

他进一步通过量化计算说明，在合理流量下，类似Lepton这样的大模型技术服务商是可能盈利的。当然，实际盈利还会受到流量稳定性、计费方式、机器成本控制等多种因素的影响。但某种程度上说，在大模型时代，技术人员需要对模型进行种种优化，以保证性能提高的同时不断降低成本。

对于贾扬清这样的AI Infra创业者来说，模型大小的潮流变化对他的商业模式有不同影响。如果模型参数量越大，提供模型服务的门槛越高，客单价自然也就越大。而较小的模型更容易部署在不同设备和平台上，可能会带来应用场景的增加，需求数量上的增加反而可能使得总收入增加。此外，META的开源路线也使得贾扬清的服务对象扩大，对他来说更有利。

总之，不管未来模型规模如何变化，贾扬清都有机会凭借技术升级稳坐钓鱼台。这也正是他最近在推特上活跃发表看法的原因。对于这种AI Infra的创业路线，你怎么看？欢迎交流最新AI行业动态。