字节扣子搭建大模型擂台：匿名PK效果，用户当裁判，跑分时代要结束了

AIGC动态2年前 (2024)发布 QbitAI

3,218 0 0

文章摘要

在字节跳动的AI应用开发平台“扣子”上，出现了一种新颖的模型竞技方式——“模型广场”。这个概念类似于国外权威的大模型擂台“Chatbot Arena”，用户可以参与其中，观看两个匿名的大型语言模型（大模型）针对同一问题进行PK，并根据生成内容的表现进行投票。这些模型间的对战不仅测试了它们在任意业务场景下的文本生成、技能和知识调用等能力，还提供了直观的对比，让人工智能的评估变得更加直接和刺激。

在这种模式下，两个大模型为一组，匿名参与PK，用户提问后，模型们实时生成答案。参与者可以根据答案的速度、内容侧重点等因素进行投票，投票选项包括认为哪一个模型表现更好，或者两个都好/差。这种形式不仅考验模型的实际应用能力，还增加了互动性和娱乐性。

“模型广场”设有三种对战模式：随机Bot对战、指定Bot对战和纯模型对战。在随机Bot对战模式中，扣子从已上架的Bot中随机挑选进行对战；指定Bot对战允许用户挑选一个特定的场景进行模型对比；而纯模型对战则是直接评估两个模型的文本生成能力，忽略其他配置影响。文章举例说明了这种竞技方式的应用，如提问高考题目、数学问题，甚至是包含梗的问题，让模型们生成答案并进行对比。

结果显示，模型们在速度和内容上有明显差异，用户投票后，模型的真实身份会被揭晓。这种方式得到了AI界人士的高度认可，并被认为是一种可靠的评价基准。

这种创新的模型评估方式不仅为用户提供了深入了解AI模型性能的窗口，同时也为模型开发者和研究者提供了一种新的测试和改进途径。这种方式得到了AI界人士的高度认可，并被认为是一种可靠的评价基准。