标签：评测方法

大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待

MMLU-Pro，一个旨在衡量大型语言模型性能的权威测试，近期遭遇了信任危机。原本被认为能为前沿模型提供区分度的MMLU-Pro，现在被指出其评测方法存在偏向性，...

AIGC动态

1年前 (2024)

小红书怎么用大模型？顶会作者在线等你来聊

3. 袁沛文将介绍在ACL 2024上发表的两篇论文。第一篇《BatchEval: Towards Human-like Text Evaluation》提出了BatchEval方法，能够以更低的开销达到类人水平...

AIGC动态

1年前 (2024)

小红书这场大模型论文分享会，集齐了四大国际顶会的作者

大模型正在引领新一轮的研究热潮，业界和学术界都在这一领域涌现出众多创新成果。小红书技术团队也在这一浪潮中不断探索，并在多个国际顶会上频频亮相。大模...

AIGC动态

2年前 (2024)