ICLR 2025杰出论文公布!中科大硕士、OpenAI漆翔宇摘桂冠

AIGC动态1天前发布 AIera
122 0 0
ICLR 2025杰出论文公布!中科大硕士、OpenAI漆翔宇摘桂冠

 

文章摘要


【关 键 词】 ICLR杰出论文模型安全微调分割

ICLR 2025杰出论文评选结果揭晓,三篇杰出论文和三项荣誉提名奖脱颖而出。获奖论文的研究团队来自普林斯顿大学、不列颠哥伦比亚大学、新加坡国立大学和中国科学技术大学等知名机构,且均为华人学者主导。评选过程经过两阶段严格筛选,从36篇候选论文中最终确定获奖名单,评审标准包括理论见解、实际影响、写作质量和实验严谨性。

普林斯顿大学与谷歌DeepMind合作的研究揭示了大型语言模型(LLM)在安全对齐中的脆弱性。研究发现,当前的安全对齐方法主要针对模型生成的前几个token,导致模型在面对对抗性攻击或微调时容易失效。论文提出了“浅层安全对齐”的概念,并指出通过深化对齐过程,可以显著提高模型的鲁棒性。研究还设计了一种正则化微调目标,旨在增强安全对齐的持久性。

不列颠哥伦比亚大学的研究从“学习动态”的角度探讨了大模型微调过程中的行为。研究发现,微调可能导致模型出现“幻觉”,即在生成响应时错误地使用不相关的信息或重复简单短语。论文还揭示了“挤压效应”,即在离线策略直接偏好优化(DPO)中,过长的运行时间可能降低期望输出的概率。这一研究为理解微调过程中的模型行为提供了新的视角。

新加坡国立大学与中国科学技术大学的研究提出了一种名为AlphaEdit的模型编辑方法,旨在解决大模型生成错误或过时知识的问题。AlphaEdit通过在编辑前将扰动投影到保留知识的零空间上,有效减少了知识干扰。实验表明,该方法在多种LLM上显著提升了编辑性能,平均提升了36.7%。

在荣誉提名奖中,Meta的SAM 2模型在图像和视频分割任务中表现出色,准确度和速度均有显著提升。此外,谷歌与Mistral AI的研究结合了级联模型和推测解码法的优势,提出了“推测级联”方法,在成本与质量之间取得了更好的平衡。

这些研究不仅展示了当前大模型研究的前沿进展,也为未来的模型优化和应用提供了重要的理论支持和实践指导。

原文和模型


【原文链接】 阅读原文 [ 2368字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...