文章摘要
【关 键 词】 AI预测、神经科学、科研辅助、基准测试、模型比较
伦敦大学学院(UCL)的研究人员在Nature Human Behaviour期刊上发表了一项研究,该研究通过一个名为BrainBench的前瞻性基准测试,评估了大型语言模型在神经科学领域预测新结果的能力。结果显示,大型语言模型的预测准确率达到81%,远超过人类专家的63%。即使将人类专家限定在神经科学领域具有最高专业知识的人,其准确率也仅为66%。这表明大型语言模型在辅助科研新发现方面具有潜力。
研究指出,神经科学领域预测面临的挑战包括大量科学论文、不可靠的研究结果、跨领域学科特性、复杂的分析方法和多样的实验方法。BrainBench基准包含200个由人类专家设计的测试案例和100个由GPT-4生成的测试案例,覆盖五个神经科学领域。测试者需在原始摘要和修改版本之间选择正确的原始版本,人类专家和大型语言模型分别根据信心和专业水平评分以及困惑度评分。
实验结果显示,大型语言模型在每个子领域中的表现都优于人类专家。研究人员还通过zlib-perplexity ratio评估了大型语言模型是否记住了某些段落,结果表明没有迹象表明大型语言模型见过并记住了BrainBench。此外,大型语言模型在2023年早些时候发表的项目上并没有表现得更好,表明BrainBench的数据对模型来说是新的。最后,研究人员检查了大型语言模型的预测是否经过校准,发现与人类专家一样,准确性和置信度之间存在正相关性。
原文和模型
【原文链接】 阅读原文 [ 2390字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...