微软用AI Agent生成2500万对高质量数据，极大提升大模型性能！

2,083 0 0

文章摘要

【关键词】 AI训练数据、Agent Instruct、生成教学、数据优化、性能提升

在AIGC领域，随着生成式AI产品如ChatGPT和Copilot的快速发展，对训练数据的需求急剧增加，这对提升大型语言模型（LLM）的性能至关重要。为了应对训练数据短缺和质量问题，微软研究院开发了Agent Instruct，这是一个AI Agent，专门用于生成高质量的合成数据。

Agent Instruct采用了一种名为“生成教学”的创新方法，通过多个智能体的协作，自动完成数据的转换、清洗和优化，以合成高质量的数据。该Agent首先收集各种原始数据种子，如教科书章节、网络文章和代码片段，这些种子为后续的数据合成提供了丰富的信息来源。

接着，Content Transformation Agents将原始种子材料转换成中间形式，简化了后续步骤中针对具体目标创建指令的过程。例如，文本段落可以被转换成论点段落、会议记录或API列表，这一转换过程使得原本无结构的内容变得更加有条理，同时保留了原始材料的多样性和丰富性。

在种子指令创建流程中，Instruction Creation Agents进一步处理这些经过初步转换的内容，创造出多样化的指令。这些指令可以是要求模型执行特定任务的请求，如修改文字、编写故事、解释概念或完成编码任务。这一阶段的目标是生成一系列具有挑战性和多样性的任务，以便模型在训练过程中接触到尽可能多的不同类型的任务。

为了提高指令的质量和复杂性，研究人员引入了指令细化流程，通过Refinement Agents对指令进行深入的迭代优化，确保每一条指令都能够更加精准地达到预期的数据效果。智能体提出各种可能的改进方案，增加指令的复杂性、多样性和质量，然后对改进后的方案进行优化，并在语言表述上保持清晰和准确。

通过这一流程，研究人员使用Agent Instruct自动生成了2500万个配对的高质量合成数据集，涵盖了文本编辑、创意写作、编程和阅读理解等领域。这些数据被用来训练和微调Mistral-7b模型，开发出了Orca-3模型。

在一系列基准测试中，Orca-3模型的性能相比原来的Mistral-7b-Instruct模型有了显著提升。在AGIEval上提升了40%，在MMLU上提高了19%，在GSM8K上进步了54%，在BBH上提升了38%，在AlpacaEval上提升了45%。此外，Orca-3在多项指标上也超越了LLAMA-8B-instruct和GPT-3.5-turbo等其他模型。