谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

AIGC动态1年前 (2024)发布 QbitAI

9,205 0 0

文章摘要

谷歌DeepMind近期卷入了一起抄袭争议，被指控抄袭了一项一年前发表在arXiv上的研究。双方的研究都聚焦于规范模型文本生成结构的方法。尽管谷歌DeepMind在其论文中明确引用了原告的论文，但原告Brandon T. Willard和Rémi Louf仍坚持认为谷歌的论文抄袭了他们的技术报告，并对谷歌DeepMind论文中关于两者差异性的表述表示不满。

通过谷歌Gemini 1.5 Pro的分析，两篇论文的主要内容被概括如下：谷歌DeepMind的论文提出了一种基于有限状态转换器（FST）的方法，通过与表示目标形式语言的自动机结合，生成基于token的自动机来约束语言模型的输出。而原告论文则将文本生成问题定义为有限状态机（FSM）之间的转换，通过构建词汇表索引来提高效率。

Gemini还列出了两篇论文的共同点，但指出谷歌DeepMind将词汇表定义为FST是两者的主要区别。谷歌DeepMind在论文中提到，与原告论文相比，他们的方法更容易应用FSA和泛化到PDA，并且定义了扩展以支持通配符匹配，提高了可用性。

抄袭争议引起了网友的广泛关注和讨论。一些网友对CoLM会议的审稿质量表示质疑，认为评审们应该更加关注这种潜在的抄袭行为。同时，也有声音指出，科技巨头抄袭小团队成果的情况并不罕见。原告Brandon和Rémi目前合伙创业，成立了一家专注于信息提取模型的新公司.txt，其GitHub主页正是原告论文的仓库。

抄袭争议也引发了关于学术道德和知识产权保护的讨论。一些网友认为，发布预印本论文和开源代码是“占坑”行为，而另一些网友则认为，未经评估的预印本论文不能等同于正式发表的研究成果。Brandon和Rémi对这种观点表示强烈反对，认为开源代码和撰写相关论文是科研工作的重要组成部分，而抄袭他人成果的行为是不道德的。

这起抄袭争议不仅涉及到谷歌DeepMind和原告之间的纠纷，也引发了学术界对于学术道德、知识产权保护以及审稿制度的反思和讨论。如何确保学术研究的原创性和公正性，防止抄袭行为的发生，是学术界需要共同面对和解决的问题。同时，这起事件也提醒了广大科研工作者，要尊重他人的知识产权，遵守学术道德规范，共同维护一个健康、公平的学术环境。