腾讯开源WMT2025冠军大模型:拿下30个第一,同类最佳

AIGC动态8小时前发布 AIGCOPEN
91 0 0
腾讯开源WMT2025冠军大模型:拿下30个第一,同类最佳

 

文章摘要


【关 键 词】 腾讯开源翻译模型Hunyuan – MT翻译场景机器翻译

昨晚,腾讯开源了在2025年世界机器翻译大会(WMT2025)上表现优异的翻译大模型Hunyuan-MT-7B。该模型在31种主流和小众语言测试中,拿下30个语种第一,在权威测试中超越谷歌和Anthropic的模型,可媲美OpenAI的GPT – 4.1,成为同类最佳开源模型。

其架构开发过程如下:通用预训练阶段,团队用涵盖多种语言的海量数据混合训练,开发专有质量评估模型筛选高质量语料,建立标签系统保证内容多样性,获Hunyuan – 7b – Base1基础模型且测试性能不错。面向机器翻译的专项预训练阶段,用严格清洗的单语和双语语料库,借鉴RegMix策略确定数据混合比例,融入原始预训练语料库回放并设计学习率调度。监督微调分两阶段,第一阶段用约300万对平行语料库,过滤低质量样本;第二阶段用约268,000对更高质量数据集,严格筛选并人工验证。强化学习采用GRPO算法和综合奖励函数,包括质量感知奖励、术语感知奖励和重复惩罚,以应对机器翻译应用强化学习的挑战。

Hunyuan-MT-7B在多个翻译场景表现出色。在中文社交媒体情境、英语俚语表达、特定领域术语翻译、游戏翻译、处理非正式语言和体育情境中,相比Google – Translator,它能更准确理解语义,生成更自然、符合语境的翻译。

网友对该模型成果表示瞩目,认为70亿参数模型取得这样的成绩彰显了效率进步,有望推动高质量翻译普及化。腾讯凭借这款轻量且性能强劲的模型正式跻身机器翻译赛道,其版本稳定性出色,多语言支持功能受青睐,整套技术流程展现出强劲实力。

原文和模型


【原文链接】 阅读原文 [ 2585字 | 11分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...