“大海捞针”out!“数星星”成测长文本能力更精准方法,来自鹅厂

AIGC动态8个月前发布 QbitAI
854 0 0
“大海捞针”out!“数星星”成测长文本能力更精准方法,来自鹅厂

 

文章摘要


【关 键 词】 模型测试长文本能力数星星方法腾讯MLPD长依赖关系

腾讯MLPD实验室近期提出了一种新的大模型长文本能力测试方法,名为“数星星”,旨在替代传统的“大海捞针”测试。这种新方法更注重评估模型处理长依赖关系的能力,被认为能够更全面精准地评估模型性能。

“数星星”测试的核心在于将一段长文本分成多个部分,并在其中插入含有不同数量“星星”的句子。模型的任务是找出所有这些句子,并准确输出其中的数字。这种方法要求模型必须找到所有相关句子才能正确回答问题,因此能更好地考察模型对长文本中的信息处理能力。

在实验中,研究人员使用《红楼梦》作为上下文,并插入了“小企鹅数了x颗星星”这样的句子,其中x代表不同的数字。模型需要找到这些句子并输出数字,然后研究人员会将模型输出的数字与真实值(Ground Truth)进行对比,以计算准确率。

GPT-4和国内知名的Kimi Chat是首批接受“数星星”测试的大模型。在测试中,两款模型在不同条件下表现各有千秋。例如,在“星星”数量和文本粒度均为32时,GPT-4的准确率为96.8%,而Kimi的准确率为86.4%。但当“星星”数量增加到64时,Kimi以93.1%的准确率超过了GPT-4的89.7%。此外,当颗粒度变化时,两款模型的表现也会受到影响。

研究人员还发现,当模型意识到“星星”数量是递增的时候,它们会变得更加敏感。为了避免这种情况,研究人员特意打乱了数字的顺序,并重新进行了测试。结果显示,虽然GPT-4和Kimi的表现都有所下降,但准确率仍然保持在60%以上。

这项新的测试方法可能还需要时间来验证其准确性,但它的出现无疑为评估大模型的长文本处理能力提供了新的视角。随着越来越多的大模型厂商宣布推出能够处理超长文本的模型,如何准确评估这些模型的实际表现成为了一个重要课题。“数星星”测试方法的提出,为我们深入了解这些模型的能力提供了一个新的工具。

论文和代码已经公开,感兴趣的读者可以通过提供的链接进一步了解研究细节和测试方法。随着大模型研究的不断深入,我们可以期待未来会有更多创新的测试方法出现,帮助我们更好地理解和评估大模型的能力。

原文和模型


【原文链接】 阅读原文 [ 1146字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4
【摘要评分】 ★★☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...