对话林咏华:刚在“AI春晚”上开源了3.4T数据集的智源,是如何死磕大模型数据难题的

AIGC动态6个月前发布 Si-Planet
777 0 0
对话林咏华:刚在“AI春晚”上开源了3.4T数据集的智源,是如何死磕大模型数据难题的

 

文章摘要


【关 键 词】 AI盛会开源数据大模型数据集行业应用

北京智源大会作为一年一度的AI行业盛会,汇聚了众多AI领域的顶尖学者和产业专家。本次大会的亮点之一是开源数据的讨论和贡献,智源研究院在推动全球大模型开源生态方面发挥了重要作用。

开源数据对于大模型的发展至关重要。OpenAI在2020年提出的Scaling Law揭示了模型规模、训练数据和模型效果的关系,表明大量计算资源和数据投入可以显著提升模型性能。目前,几乎所有大模型公司都在沿着Scaling Law的路线演进。然而,随着模型参数的不断增长,对数据量的需求也在增加,未来可能面临“数据荒”的问题。

为应对这一挑战,智源研究院在数据领域采取了多项措施。首先,智源推出了全球最大语料库WuDaoCorpora,开放了200GB的高质量低风险中文语料,支持全球大模型研究。此外,智源还开源了可商用的指令数据集COIG、中英文文本对语义向量模型训练数据集MTP,以及高质量中文互联网语料库CCI 1.0等多个项目。

行业应用中,大模型面临的最大挑战之一是缺乏海量、高质量的行业特定数据集。IndustryCorpus 1.0作为目前全球最大的多行业中英双语数据集,包含3.4TB的开源行业预训练数据,覆盖了18个行业类别。通过使用医疗行业数据集进行示范模型训练,智源展示了该数据集在提升模型行业能力方面的有效性。

智源研究院副院长林咏华在接受采访时表示,开源数据对于大模型数据生态至关重要。他指出,如果没有Common Crawl等开源数据集,大模型的发展可能会延后。此外,林咏华还提到了中文数据面临的挑战,包括数据孤岛问题和版权问题。他认为,需要通过技术手段和合作来解决这些问题,推动中文数据的汇聚和流动。

在数据交易方面,林咏华认为,随着大模型的兴起,数据交易所上的挂牌交易可能会逐渐增多。但他同时指出,大模型预训练数据的质量参差不齐,采购方很难过滤每一条数据的质量,这也是目前数据交易面临的挑战之一。

展望未来,智源研究院将继续在数据领域进行布局,包括开源更多高质量的文本和多模态数据,以及挖掘垂类数据,以支持大模型在行业的落地和应用。通过不断扩大和优化开源数据集,智源研究院致力于推动人工智能技术的创新和发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 5142字 | 21分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...