
文章摘要
【关 键 词】 多模态、强化学习、泛化推理、动态KL、奖励模型
OPPO研究院与香港科技大学(广州)的研究人员提出了一项名为OThink-MR1的新技术,旨在通过动态强化学习提升多模态大模型的泛化推理能力。多模态大模型虽然能够处理多种类型的数据输入并生成相关输出,但在面对复杂推理任务时,其表现往往不尽如人意。目前,大多数多模态模型主要采用监督微调(SFT)方法进行训练,这种方法虽然在特定任务上表现良好,但难以培养模型的通用推理能力。相比之下,强化学习(RL)通过让模型在不断尝试中学习,理论上可以提升模型的灵活性和推理能力,但在多模态任务中,其通用能力尚未得到充分探索。
OThink-MR1技术的核心在于动态强化学习框架,其包含两个关键组件:动态KL散度策略(GRPO-D)和精心设计的奖励模型。动态KL散度策略能够根据训练进度动态调整探索与利用的平衡,避免模型陷入局部最优解。奖励模型则通过验证准确性奖励和格式奖励,引导模型在多个方面进行优化。例如,在视觉计数任务中,模型不仅需要准确数出图片中的物体数量,还需按照规定的格式写下答案,才能获得奖励。
为了验证OThink-MR1的效果,研究人员进行了一系列实验。在几何推理任务中,调整格式奖励的权重发现,当格式奖励的权重不为零时,模型的表现明显更好。同时,调整KL散度的权重时,权重适中时模型表现最佳。在跨任务评估中,采用监督微调训练的模型表现较差,而经过GRPO-D训练的模型则表现出色,展现了较强的泛化能力。在同任务评估中,OThink-MR1中的GRPO-D方法在视觉计数和几何推理任务上均超过了监督微调的表现。
总体而言,OThink-MR1技术通过动态强化学习,显著提升了多模态语言模型的推理能力和泛化能力。这一技术的成功应用,为多模态语言模型的发展开辟了新的道路,未来有望在更多领域发挥重要作用。
原文和模型
【原文链接】 阅读原文 [ 1643字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆