ICLR 2025杰出论文公布！中科大硕士、OpenAI漆翔宇摘桂冠

720 0 0

文章摘要

ICLR 2025杰出论文评选结果揭晓，三篇杰出论文和三项荣誉提名奖脱颖而出。获奖论文的研究团队来自普林斯顿大学、不列颠哥伦比亚大学、新加坡国立大学和中国科学技术大学等知名机构，且均为华人学者主导。评选过程经过两阶段严格筛选，从36篇候选论文中最终确定获奖名单，评审标准包括理论见解、实际影响、写作质量和实验严谨性。

普林斯顿大学与谷歌DeepMind合作的研究揭示了大型语言模型（LLM）在安全对齐中的脆弱性。研究发现，当前的安全对齐方法主要针对模型生成的前几个token，导致模型在面对对抗性攻击或微调时容易失效。论文提出了“浅层安全对齐”的概念，并指出通过深化对齐过程，可以显著提高模型的鲁棒性。研究还设计了一种正则化微调目标，旨在增强安全对齐的持久性。

不列颠哥伦比亚大学的研究从“学习动态”的角度探讨了大模型微调过程中的行为。研究发现，微调可能导致模型出现“幻觉”，即在生成响应时错误地使用不相关的信息或重复简单短语。论文还揭示了“挤压效应”，即在离线策略直接偏好优化（DPO）中，过长的运行时间可能降低期望输出的概率。这一研究为理解微调过程中的模型行为提供了新的视角。

新加坡国立大学与中国科学技术大学的研究提出了一种名为AlphaEdit的模型编辑方法，旨在解决大模型生成错误或过时知识的问题。AlphaEdit通过在编辑前将扰动投影到保留知识的零空间上，有效减少了知识干扰。实验表明，该方法在多种LLM上显著提升了编辑性能，平均提升了36.7%。

在荣誉提名奖中，Meta的SAM 2模型在图像和视频分割任务中表现出色，准确度和速度均有显著提升。此外，谷歌与Mistral AI的研究结合了级联模型和推测解码法的优势，提出了“推测级联”方法，在成本与质量之间取得了更好的平衡。

这些研究不仅展示了当前大模型研究的前沿进展，也为未来的模型优化和应用提供了重要的理论支持和实践指导。