发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

AIGC动态7个月前发布 AIera
773 0 0
发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

 

文章摘要


【关 键 词】 微软WizardLM-2开源删除测试

微软近期发布了一款新的大型语言模型WizardLM-2,该模型被宣称具有与GPT-4相媲美的性能。然而,令人意外的是,这个模型在上线几小时后就被删除了。原因是微软团队内部忘记对模型进行“投毒测试”,这是模型发布流程中的一个重要步骤。微软团队随后现身道歉,并解释了发布流程中的疏忽。

WizardLM-2是基于LlaMA微调而来的,去年6月发布的初代WizardLM引起了开源社区的广泛关注。随后,微软又推出了基于Code Llama的WizardCoder,其在HumanEval上的表现超越了原始GPT-4。到了今年4月15日,微软宣布了新一代WizardLM,这次是从Mixtral 8x22B微调而来,包含8x22B、70B和7B三个参数版本。在MT-Bench基准测试中,新模型取得了领先优势,其中8x22B模型性能接近GPT-4和Claude 3,70B版本位列第一,而7B版本速度最快,性能可与参数规模是其10倍的领先模型相当。

WizardLM 2的出色表现背后,得益于微软开发的革命性训练方法论Evol-Instruct,以及强化学习框架RLEIF。Evol-Instruct通过迭代地改写初始指令集,生成越来越复杂的变体,然后对基础模型进行微调。RLEIF在开发过程中也起到了重要作用。此外,AI Align AI(AAA)方法也被用于训练,它包括“共同教学”和“自学”两个主要组件,通过模型间的相互指导和改进,以及自我生成的数据和反馈信息的学习,不断提高模型性能。

尽管模型被删除,但有些网友已经下载了权重,并在一些额外的基准上进行了测试。测试结果显示,WizardLM-8x22B的得分为98.33,而基础Mixtral-8x22B的得分为89.46,Mixtral 8x7B-Indict的得分为92.93,表明WizardLM-8x22B的性能确实很强。

然而,没有进行投毒测试就发布模型是不可取的,因为大模型容易产生幻觉,如果输出“有毒、有偏见、不正确”的内容,将对微软自身造成负面影响,甚至可能引起当局的调查。因此,微软的这一疏忽引起了业界的广泛关注和讨论。

原文和模型


【原文链接】 阅读原文 [ 2160字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...