战胜100多位NLP研究人员!杨笛一团队最新百页论文:首次统计学上证明,LLM生成的idea新颖性优于人类

AIGC动态3个月前发布 AIera
658 0 0
战胜100多位NLP研究人员!杨笛一团队最新百页论文:首次统计学上证明,LLM生成的idea新颖性优于人类

 

文章摘要


【关 键 词】 LLM评估创意生成科研实验自然语言处理智能体技术

斯坦福大学的研究团队在一项为期一年的大规模实验中,对大型语言模型(LLMs)在科学研究创意生成方面的能力进行了评估。研究结果表明,LLMs在产生新颖想法方面超过了人类专家,但在想法的可行性上稍显不足。

实验设计严谨,旨在控制可能的干扰因素,如研究领域、想法的格式和评估过程。研究人员招募了超过100名高水平的自然语言处理(NLP)研究人员,他们来自36个不同机构,大多数是博士和博士后。实验要求参与者撰写新想法,并进行了盲审。

研究将科研想法评估分为三个子部分:想法本身、书面报告和专家评估。为了确保评估的一致性,研究人员设计了一个模板来规定想法提案的结构和详细程度,并使用风格标准化提示来统一写作风格。

在想法书面报告方面,研究人员从资助申请指南中获得灵感,制定了一个详细的模板,包括标题、问题陈述、动机、方法、实验计划、测试用例和备选计划等。为了减少写作风格差异,所有想法都被转换为统一的写作和格式化风格。

评审和评估过程则遵循了AI领域会议的评审标准,定义了新颖性、兴奋度、可行性和预期效果四个评估指标,每个指标都有1-10的评分和文本理由。

在想法生成智能体方面,研究人员利用检索增强生成(RAG)技术,使智能体能够检索与研究主题相关的论文,以便在生成新创意时有据可依。智能体首先生成一系列对Semantic Scholar API的函数调用,然后使用Claude-3-5-Sonnet模型进行论文检索和评分排序。

创意生成过程中,LLM为每个研究主题生成了4000个种子创意,并通过排序器选取出高质量的创意。为了去除重复,使用Sentence-Transformers进行编码和余弦相似度计算。最后,通过成对比较任务和瑞士制比赛系统进行创意排名。

研究还探讨了LLM自我评估的不足和生成过程中缺乏多样性的问题。尽管LLM在新颖性上优于人类,但在可行性方面还有待提高。研究人员提出了端到端的研究设计,招募研究人员将这些想法转化为完整的项目,以进一步探索LLM在科学研究中的潜力。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2153字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...