腾讯开源WMT2025冠军大模型：拿下30个第一，同类最佳

91 0 0

文章摘要

【关键词】 腾讯开源、翻译模型、Hunyuan – MT、翻译场景、机器翻译

昨晚，腾讯开源了在2025年世界机器翻译大会（WMT2025）上表现优异的翻译大模型Hunyuan-MT-7B。该模型在31种主流和小众语言测试中，拿下30个语种第一，在权威测试中超越谷歌和Anthropic的模型，可媲美OpenAI的GPT – 4.1，成为同类最佳开源模型。

其架构开发过程如下：通用预训练阶段，团队用涵盖多种语言的海量数据混合训练，开发专有质量评估模型筛选高质量语料，建立标签系统保证内容多样性，获Hunyuan – 7b – Base1基础模型且测试性能不错。面向机器翻译的专项预训练阶段，用严格清洗的单语和双语语料库，借鉴RegMix策略确定数据混合比例，融入原始预训练语料库回放并设计学习率调度。监督微调分两阶段，第一阶段用约300万对平行语料库，过滤低质量样本；第二阶段用约268,000对更高质量数据集，严格筛选并人工验证。强化学习采用GRPO算法和综合奖励函数，包括质量感知奖励、术语感知奖励和重复惩罚，以应对机器翻译应用强化学习的挑战。

Hunyuan-MT-7B在多个翻译场景表现出色。在中文社交媒体情境、英语俚语表达、特定领域术语翻译、游戏翻译、处理非正式语言和体育情境中，相比Google – Translator，它能更准确理解语义，生成更自然、符合语境的翻译。

网友对该模型成果表示瞩目，认为70亿参数模型取得这样的成绩彰显了效率进步，有望推动高质量翻译普及化。腾讯凭借这款轻量且性能强劲的模型正式跻身机器翻译赛道，其版本稳定性出色，多语言支持功能受青睐，整套技术流程展现出强劲实力。