文章摘要
【关 键 词】 NeurIPS争议、评审问题、大模型评审、评审标准、公正性缺失
NeurIPS 2024的评审结果引发了广泛的讨论和争议。一些网友指出,部分评审人对论文的贡献进行了贬低,使用了不合理的标准进行评判,甚至忽视了论文相对于其他工作的改进。这种现象可能与竞品作者的不诚实评审有关。对此,领域主席建议作者在遇到这种情况时联系领域主席(AC)。
在这次NeurIPS评审中,一些领域主席和评审员也表达了自己的看法。一位来自UT Austin的副教授表示,他负责的一批论文中,已提交了48篇中的16篇评审,但到目前为止还没有看到一个正面评价。他认为这可能是因为评审员变得非常严格,或者论文质量下降。另一位AI研究员也表示,他审阅的论文基本上都给了2-4分,这可能是因为论文质量下降,或者他就是大家口中讨厌的2号评审员。
此外,大模型也被用于论文评审。一些Reddit网友表示,他们花费了一个月的时间审核6篇论文,但得到的却是LLM的评价,这让他们感到受伤。还有人指出,在他们审阅的论文中,至少发现了3篇由大模型生成的评审意见,其中3篇明显是直接复制粘贴了ChatGPT的输出,完全没有阅读论文。这些评审都给了6分,Confidence为4,与其他所有人的评价完全不一致。一些评审者混淆了方法的基线和派生,怀疑这些评论是由LLM产生的。
有人指出,这可能是NeurIPS官方组委会的问题。他们认为,6分的描述完全、彻底、奇怪地错误。通常情况下,给6分就意味着拒稿,但它却被描述为一篇有中等到高影响力,且没有问题的论文。这导致新评审员给出如此低的分数。
总的来说,NeurIPS 2024的评审结果引发了很多争议和讨论。一些评审人可能存在不诚实的行为,大模型的参与也带来了一些问题。同时,组委会在评审标准的设置上也存在一定的问题。这些问题需要引起组委会和评审者的重视,以确保评审的公正性和论文质量。
原文和模型
【原文链接】 阅读原文 [ 877字 | 4分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆