发布几小时，微软秒删媲美GPT-4开源大模型！竟因忘记投毒测试

AIGC动态1年前 (2024)发布 AIera

2,402 0 0

文章摘要

微软近期发布了一款新的大型语言模型WizardLM-2，该模型被宣称具有与GPT-4相媲美的性能。然而，令人意外的是，这个模型在上线几小时后就被删除了。原因是微软团队内部忘记对模型进行“投毒测试”，这是模型发布流程中的一个重要步骤。微软团队随后现身道歉，并解释了发布流程中的疏忽。

WizardLM-2是基于LlaMA微调而来的，去年6月发布的初代WizardLM引起了开源社区的广泛关注。随后，微软又推出了基于Code Llama的WizardCoder，其在HumanEval上的表现超越了原始GPT-4。到了今年4月15日，微软宣布了新一代WizardLM，这次是从Mixtral 8x22B微调而来，包含8x22B、70B和7B三个参数版本。在MT-Bench基准测试中，新模型取得了领先优势，其中8x22B模型性能接近GPT-4和Claude 3，70B版本位列第一，而7B版本速度最快，性能可与参数规模是其10倍的领先模型相当。

WizardLM 2的出色表现背后，得益于微软开发的革命性训练方法论Evol-Instruct，以及强化学习框架RLEIF。Evol-Instruct通过迭代地改写初始指令集，生成越来越复杂的变体，然后对基础模型进行微调。RLEIF在开发过程中也起到了重要作用。此外，AI Align AI（AAA）方法也被用于训练，它包括“共同教学”和“自学”两个主要组件，通过模型间的相互指导和改进，以及自我生成的数据和反馈信息的学习，不断提高模型性能。

尽管模型被删除，但有些网友已经下载了权重，并在一些额外的基准上进行了测试。测试结果显示，WizardLM-8x22B的得分为98.33，而基础Mixtral-8x22B的得分为89.46，Mixtral 8x7B-Indict的得分为92.93，表明WizardLM-8x22B的性能确实很强。

然而，没有进行投毒测试就发布模型是不可取的，因为大模型容易产生幻觉，如果输出“有毒、有偏见、不正确”的内容，将对微软自身造成负面影响，甚至可能引起当局的调查。因此，微软的这一疏忽引起了业界的广泛关注和讨论。