微软用AI Agent生成2500万对高质量数据,极大提升大模型性能!

AI-Agent3个月前发布 AIGCOPEN
702 0 0
微软用AI Agent生成2500万对高质量数据,极大提升大模型性能!

 

文章摘要


【关 键 词】 AI训练数据Agent Instruct生成教学数据优化性能提升

在AIGC领域,随着生成式AI产品如ChatGPT和Copilot的快速发展,对训练数据的需求急剧增加,这对提升大型语言模型(LLM)的性能至关重要。为了应对训练数据短缺和质量问题,微软研究院开发了Agent Instruct,这是一个AI Agent,专门用于生成高质量的合成数据。

Agent Instruct采用了一种名为“生成教学”的创新方法,通过多个智能体的协作,自动完成数据的转换、清洗和优化,以合成高质量的数据。该Agent首先收集各种原始数据种子,如教科书章节、网络文章和代码片段,这些种子为后续的数据合成提供了丰富的信息来源。

接着,Content Transformation Agents将原始种子材料转换成中间形式,简化了后续步骤中针对具体目标创建指令的过程。例如,文本段落可以被转换成论点段落、会议记录或API列表,这一转换过程使得原本无结构的内容变得更加有条理,同时保留了原始材料的多样性和丰富性。

在种子指令创建流程中,Instruction Creation Agents进一步处理这些经过初步转换的内容,创造出多样化的指令。这些指令可以是要求模型执行特定任务的请求,如修改文字、编写故事、解释概念或完成编码任务。这一阶段的目标是生成一系列具有挑战性和多样性的任务,以便模型在训练过程中接触到尽可能多的不同类型的任务。

为了提高指令的质量和复杂性,研究人员引入了指令细化流程,通过Refinement Agents对指令进行深入的迭代优化,确保每一条指令都能够更加精准地达到预期的数据效果。智能体提出各种可能的改进方案,增加指令的复杂性、多样性和质量,然后对改进后的方案进行优化,并在语言表述上保持清晰和准确。

通过这一流程,研究人员使用Agent Instruct自动生成了2500万个配对的高质量合成数据集,涵盖了文本编辑、创意写作、编程和阅读理解等领域。这些数据被用来训练和微调Mistral-7b模型,开发出了Orca-3模型。

在一系列基准测试中,Orca-3模型的性能相比原来的Mistral-7b-Instruct模型有了显著提升。在AGIEval上提升了40%,在MMLU上提高了19%,在GSM8K上进步了54%,在BBH上提升了38%,在AlpacaEval上提升了45%。此外,Orca-3在多项指标上也超越了LLAMA-8B-instruct和GPT-3.5-turbo等其他模型。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 937字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...