字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代要结束了

AIGC动态5个月前发布 QbitAI
835 0 0
字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代要结束了

 

文章摘要


【关 键 词】 AI竞技模型对比互动娱乐能力评估创新模式

在字节跳动的AI应用开发平台“扣子”上,出现了一种新颖的模型竞技方式——“模型广场”。这个概念类似于国外权威的大模型擂台“Chatbot Arena”,用户可以参与其中,观看两个匿名的大型语言模型(大模型)针对同一问题进行PK,并根据生成内容的表现进行投票。这些模型间的对战不仅测试了它们在任意业务场景下的文本生成、技能和知识调用等能力,还提供了直观的对比,让人工智能的评估变得更加直接和刺激。

在这种模式下,两个大模型为一组,匿名参与PK,用户提问后,模型们实时生成答案。参与者可以根据答案的速度、内容侧重点等因素进行投票,投票选项包括认为哪一个模型表现更好,或者两个都好/差。这种形式不仅考验模型的实际应用能力,还增加了互动性和娱乐性。

“模型广场”设有三种对战模式:随机Bot对战、指定Bot对战和纯模型对战。在随机Bot对战模式中,扣子从已上架的Bot中随机挑选进行对战;指定Bot对战允许用户挑选一个特定的场景进行模型对比;而纯模型对战则是直接评估两个模型的文本生成能力,忽略其他配置影响。文章举例说明了这种竞技方式的应用,如提问高考题目、数学问题,甚至是包含梗的问题,让模型们生成答案并进行对比。

结果显示,模型们在速度和内容上有明显差异,用户投票后,模型的真实身份会被揭晓。这种方式得到了AI界人士的高度认可,并被认为是一种可靠的评价基准。

这种创新的模型评估方式不仅为用户提供了深入了解AI模型性能的窗口,同时也为模型开发者和研究者提供了一种新的测试和改进途径。这种方式得到了AI界人士的高度认可,并被认为是一种可靠的评价基准。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3244字 | 13分钟 ]
【原文作者】 量子位
【摘要模型】 glm-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...