标签:评测方法

大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待

MMLU-Pro,一个旨在衡量大型语言模型性能的权威测试,近期遭遇了信任危机。原本被认为能为前沿模型提供区分度的MMLU-Pro,现在被指出其评测方法存在偏向性,...

小红书怎么用大模型?顶会作者在线等你来聊

3. 袁沛文将介绍在ACL 2024上发表的两篇论文。第一篇《BatchEval: Towards Human-like Text Evaluation》提出了BatchEval方法,能够以更低的开销达到类人水平...

小红书这场大模型论文分享会,集齐了四大国际顶会的作者

大模型正在引领新一轮的研究热潮,业界和学术界都在这一领域涌现出众多创新成果。小红书技术团队也在这一浪潮中不断探索,并在多个国际顶会上频频亮相。大模...