腾讯混元康战辉：将开源大模型训练代码，但数据开源意义不大

1,934 0 0

文章摘要

腾讯混元近期宣布开源两款大模型：“混元 Large”和“Hunyuan3D-1.0”。混元 Large 是开源领域参数规模最大、效果最好的MoE模型，拥有389B总参数量和52B激活参数量，上下文长度达到256K。在多个评测集和任务中，混元 Large 表现全面领先，超过其他一流开源大模型。模型结构和训练策略上，混元 Large 进行了MoE共享专家路由、回收路由等创新，并引入专家特化的学习率适配训练策略，提升了模型效果。此外，混元 Large 构建了覆盖多个类目的高质量、高多样性、大量级的中英文合成数据，并构建了一套完整覆盖长文阅读理解等领域任务的数据集企鹅卷轴（PenguinScrolls），将对外开放。

混元3D生成大模型Hunyuan3D-1.0是业界首个同时支持文字、图像生成3D的开源大模型，解决了现有3D生成模型在生成速度和泛化能力上的不足。Hunyuan3D-1.0首批开源模型包含轻量版和标准版，轻量版10秒即可生成高质量3D资产，目前已在技术社区公开发布。Hunyuan3D-1.0选择多视角扩散模型，并使用多视图重建模型，通过时空自适应CFG和多视图重建大模型快速完成多视角到3D资产生成，提高了生成精准度。

腾讯混元开源了模型的参数权重，未来会逐渐把训练代码开源。康战辉表示，大模型开源数据本身意义没有那么大，因为大模型大量靠数据驱动，开源数据规模太大，本身很难被大家共建。腾讯做开源是长期战略，重要的原因是开源的应该是自然而然的发展。腾讯后续会开源一些小的模型出来。与之前“先有具体的业务场景再考虑基础设施、算法模型选择”的运作方式不同，在大模型时代，混元团队是先定了一个长期AGI目标，预设它要具备什么能力，然后进行研发。