“大海捞针”out！“数星星”成测长文本能力更精准方法，来自鹅厂

AIGC动态1年前 (2024)发布 QbitAI

2,025 0 0

文章摘要

腾讯MLPD实验室近期提出了一种新的大模型长文本能力测试方法，名为“数星星”，旨在替代传统的“大海捞针”测试。这种新方法更注重评估模型处理长依赖关系的能力，被认为能够更全面精准地评估模型性能。

“数星星”测试的核心在于将一段长文本分成多个部分，并在其中插入含有不同数量“星星”的句子。模型的任务是找出所有这些句子，并准确输出其中的数字。这种方法要求模型必须找到所有相关句子才能正确回答问题，因此能更好地考察模型对长文本中的信息处理能力。

在实验中，研究人员使用《红楼梦》作为上下文，并插入了“小企鹅数了x颗星星”这样的句子，其中x代表不同的数字。模型需要找到这些句子并输出数字，然后研究人员会将模型输出的数字与真实值（Ground Truth）进行对比，以计算准确率。

GPT-4和国内知名的Kimi Chat是首批接受“数星星”测试的大模型。在测试中，两款模型在不同条件下表现各有千秋。例如，在“星星”数量和文本粒度均为32时，GPT-4的准确率为96.8%，而Kimi的准确率为86.4%。但当“星星”数量增加到64时，Kimi以93.1%的准确率超过了GPT-4的89.7%。此外，当颗粒度变化时，两款模型的表现也会受到影响。

研究人员还发现，当模型意识到“星星”数量是递增的时候，它们会变得更加敏感。为了避免这种情况，研究人员特意打乱了数字的顺序，并重新进行了测试。结果显示，虽然GPT-4和Kimi的表现都有所下降，但准确率仍然保持在60%以上。

这项新的测试方法可能还需要时间来验证其准确性，但它的出现无疑为评估大模型的长文本处理能力提供了新的视角。随着越来越多的大模型厂商宣布推出能够处理超长文本的模型，如何准确评估这些模型的实际表现成为了一个重要课题。“数星星”测试方法的提出，为我们深入了解这些模型的能力提供了一个新的工具。

论文和代码已经公开，感兴趣的读者可以通过提供的链接进一步了解研究细节和测试方法。随着大模型研究的不断深入，我们可以期待未来会有更多创新的测试方法出现，帮助我们更好地理解和评估大模型的能力。