文章摘要
【关 键 词】 学术争议、AI训练、版权问题、多模态数据、利益分配
Nature杂志近期发表的一篇文章揭示了学术出版商将论文数据出售给科技公司用于训练人工智能(AI)模型的现象。这一做法引发了广泛的争议和讨论。文章指出,许多学术出版商已经授权科技公司访问其论文数据库,以改进AI系统。例如,英国的Taylor & Francis与微软签署了价值1000万美元的协议,而美国出版商Wiley通过出售数据赚取了2300万美元。然而,这些收入并没有与论文作者分享,引发了关于知识产权和利益分配的争议。
华盛顿大学AI研究员Lucy Lu Wang表示,即使论文不在开放获取的存储库中,任何在线可读的内容都可能已经被输入到大型语言模型(LLM)中。更令人担忧的是,一旦论文被用作训练数据,就无法从模型中删除。这不仅涉及到学术界的担忧,也引起了科技公司对高质量数据集的追求。例如,非营利组织Eleuther AI构建的Pile数据集和开源的1T token数据集MINT都包含了大量学术论文,显示出论文数据在AI训练中的重要性。
然而,证明论文是否被LLM使用非常困难。伦敦帝国理工学院的计算机科学家Yves-Alexandre de Montjoye指出,要证明LLM使用了某篇确定的论文,需要使用论文中的罕见句子来提示模型,并观察其输出。此外,还可以通过“成员推理攻击”来检测模型是否对训练数据过于匹配。尽管如此,这些方法仍然存在局限性。
版权争议也是一个复杂的问题。一方面,出版商认为未经许可使用受版权保护的文本进行训练属于侵权行为;另一方面,LLM并没有直接复制内容,而是从训练数据中学习生成新文本。此外,如何界定商用和学术研究用途也是一个难题。例如,arXiv网站允许个人和研究用途使用其论文,但禁止商业使用。然而,如果商业公司使用包含arXiv数据的开源数据集训练模型,就涉及到版权问题。
尽管存在争议,但一些学者和作家对LLM的使用持开放态度。例如,Mozilla基金会的AI训练数据分析员Stefan Baack表示,他并不介意有一个以他的风格写作的聊天机器人。然而,也有艺术家和作家担心LLM对他们的作品构成威胁。此外,一些研究者,如de Montjoye,对当前的版权问题感到沮丧,认为我们需要在LLM的发展和公平之间找到平衡。
除了文本数据,arXiv论文库中的图片也被用于构建高质量的多模态数据集。例如,北京大学和香港大学的学者利用arXiv论文中的图文构建了多模态数据集,并取得了显著的效果。这些数据集不仅提高了视觉语言模型在解释抽象图片和科学图表方面的能力,还增强了模型在多模态数学推理任务上的表现。
总之,学术出版商出售论文数据给科技公司用于AI训练引发了知识产权和利益分配的争议。同时,如何证明论文被LLM使用、版权争议以及如何平衡LLM的发展和公平等问题仍然亟待解决。此外,arXiv论文库中的图片也为构建高质量的多模态数据集提供了新的可能性。
原文和模型
【原文链接】 阅读原文 [ 3000字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★