弱智吧竟成最佳中文AI训练数据？！中科院等：8项测试第一，远超知乎豆瓣小红书

AIGC动态1年前 (2024)发布 QbitAI

3,081 0 0

文章摘要

近期，一项颇为不同寻常的研究引起了广泛关注。研究者们发现，使用百度贴吧中的“弱智吧”数据训练的AI模型，在多项性能测试中取得了出色的成绩，超越了知乎、豆瓣、小红书等平台的数据效果。这一发现在学术界和互联网上引起了轰动，许多人对此表示惊讶。

“弱智吧”是一个充满荒诞和不合常理发言的中文社区，其内容的离奇和荒谬程度通常超出常人想象。然而，正是这些内容，成为了AI训练中的“指令微调神器”。研究团队，包括中科院深圳先进技术研究院、中科院自动化研究所和滑铁卢大学等机构的研究者，发现弱智吧的数据在提升AI的逻辑推理能力方面表现出意想不到的效果。

研究的起点是为了解决中文大模型训练中存在的问题，如翻译质量、数据量小、领域覆盖不全面等。为此，研究团队创建了一个高质量的中文指令微调数据集COIG-CQIA，其中包含了来自弱智吧的精华子集CQIA-Subset。这个子集由500个点赞最高的帖子标题和人工或GPT-4的回复组成，经过人工审核后留下了240组数据对。

在使用这些数据训练的Yi系列开源大模型上，弱智吧版本在BELLE-Eval测试集上的表现尤为突出。尤其是在Yi-34B模型上，弱智吧版本的总分排名第一，仅在改写和数学任务上未能取得最高分，但仍然名列前茅。此外，在安全评估上也排名第二。

研究人员推测，弱智吧中的问题可能增强了AI的逻辑推理能力，从而使得模型在执行任务时更加精准。网友们对此也进行了热烈讨论，普遍认为弱智吧数据的“异质性”和用词的准确简洁是提升模型性能的关键因素。

弱智吧的数据不仅在学术研究中发挥了作用，还在AI发展的实践中扮演了重要角色。从ChatGPT的诞生开始，弱智吧就参与了大模型的测试，成为AI浪潮的见证者。最初，网友们使用弱智吧的问题来测试AI的能力，后来这些问题成为了衡量新模型性能的标准，被称为弱智吧Benchmark。

这项研究不仅为中文大模型的开发提供了宝贵的数据资源，也为构建中文指令数据集提供了有益的启示。研究表明，社交媒体数据的开放性和多样性虽然有其价值，但也伴随着风险；而百科类数据虽然专业性强，但可能在覆盖面上有所不足。通过这项研究，我们可以看到，即使是被低估的数据源，也可能隐藏着巨大的潜力。