弱智吧：大模型变聪明，有我一份贡献

AIGC动态1年前 (2024)发布 almosthuman2014

2,790 0 0

文章摘要

机器之心报道了一项关于中文大型语言模型（LLM）的研究，该研究通过利用百度贴吧中的“弱智吧”内容作为数据集，对人工智能模型进行训练和评估。弱智吧以其高质量的段子和流行词汇创作而闻名，近年来成为百度贴吧热度第一的社区。研究者发现，使用弱智吧的数据训练出的模型在人类评估以及知识和安全基准方面表现出色。

研究中提出的 COIG-CQIA 数据集旨在弥补中文指令调优方面的差距。该数据集包括问答社区、维基百科、考试题目和现有的NLP数据集等多种来源，经过严格的过滤和处理，以确保与现实世界的中国用户交互模式保持一致。研究者在不同子集上训练了不同尺度的模型，并进行了深入的评估和分析，发现这些模型在多个方面取得了具有竞争力的结果。

COIG-CQIA 数据集的构建考虑了数据质量和多样性，选择了来自中国互联网的优质网站和数据资源。数据源被分为社交媒体和论坛、世界知识、NLP任务和考试试题四种类型，涵盖了广泛的领域。研究者还使用了Hanlp工具来分析数据集的多样性。

实验结果显示，Yi系列模型和Qwen-72B模型在不同数据源上进行微调后，能够在跨领域知识能力上表现出色。尤其是在生成任务如头脑风暴、生成和总结方面，模型表现出了优异的性能，而在数学和编码任务上则相对较弱。人类评估结果表明，与其他基线模型相比，CQIA-Subset在人类偏好方面实现了更高的得分，这归因于其生成的响应不仅质量高，而且更符合现实世界的人类沟通模式。此外，模型的安全性也在SafetyBench上得到了评估，表现出良好的性能。

这项研究的贡献在于提出了一个高质量的中文指令调优数据集，探讨了不同数据源对模型性能的影响，并通过基准测试和人工评估证实了模型的卓越性能。这使得CQIA成为中国NLP社区的宝贵资源。研究成果已经发表，并且相关数据和论文可以在公开的平台上获取。