微软开源2025 ICML获奖框架,终结大模型多轮对话严重缺陷

AIGC动态16小时前发布 AIGCOPEN
67 0 0
微软开源2025 ICML获奖框架,终结大模型多轮对话严重缺陷

 

文章摘要


【关 键 词】 机器学习大模型开源多轮对话用户体验

微软在2025年国际机器学习会议上发布了获奖论文CoLLabLLM,并开源了该创新框架。CoLLabLLM旨在解决大模型在多轮交互中的缺陷,通过多轮对话模拟和多轮感知奖励,提升模型的响应准确性和用户体验该框架的核心在于其四大模块:上下文状态理解、响应生成、协作模拟和多轮感知奖励计算与强化微调。

上下文状态理解模块通过动态窗口机制,自动调整对话上下文的保留范围,确保模型始终聚焦于关键信息。这种有选择性的上下文管理,不仅减轻了模型的处理负担,还能避免无关信息干扰,使模型更精准地把握用户意图。响应生成模块基于Llama-3.1-8B模型架构,结合LoRA低秩适配技术进行参数高效微调,生成响应时不仅关注语义的连贯性和表达的准确性,更核心的是评估每个候选响应的长期价值。这种生成策略的转变,使得模型从单纯的内容生产者转变为积极的协作引导者,通过有针对性的提问,逐步明确用户的潜在需求。

协作模拟模块通过用户模拟器生成未来可能的对话轨迹,帮助模型预判当前响应的长期影响。研究团队采用GPT-4o-mini构建用户模拟器,使其能够高度模仿真实用户的语言风格、知识水平,甚至会偶尔出现拼写错误等真实用户常见的行为特征。多轮感知奖励计算与强化微调模块则负责将协作模拟的结果转化为模型可学习的信号,通过强化学习算法优化模型的行为策略。该模块的奖励函数创新性地融合了外在指标任务成功度和内在指标用户体验,形成全面的多轮感知奖励。

在测试中,CoLLabLLM在文档创作、代码生成和数学问题求解等任务中表现出色。在MediumDocEdit-Chat测试中,其OnlineDPO变体BLEU评分达36.8,较基线提升5.14%,token数量减少8.25%,ITR评分从62.0跃升至92.0。在BiCodeBench-Chat测试中,代码通过率从11.0提升至13.0,token数量减少13.2%。在MATH-Chat测试中,准确率提升32.0%,token数量减少18.3%。这些测试共同证明,CoLLabLLM能在多样任务中主动引导交互、精准捕捉意图,实现高效协作。

原文和模型


【原文链接】 阅读原文 [ 1966字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...