ICLR 2024 Oral：长视频中噪声关联学习，单卡训练仅需1天

AIGC动态2年前 (2024)发布 almosthuman2014

3,438 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

在2024年世界经济论坛上，图灵奖得主Yann LeCun提出了视频模型应该在抽象表征空间中进行预测的观点。本文研究者基于最优传输理论，提出了一种鲁棒的长视频学习方法，以应对视频与文本描述间噪声关联现象的挑战。该论文被ICLR 2024接收为Oral。研究者提出了一种名为Norton的方法，通过视频-段落级对比学习和片段-标题级对比学习，从多个粒度学习视频表征，有效节省了训练时间。实验结果表明，该方法在长视频检索、问答、动作分割等任务中表现出色，且对噪声关联具有鲁棒性。未来研究可进一步探讨多种模态间的关联问题，并尝试结合外部大语言模型或多模态模型来清洗和重组织文本语料。

视频表征学习是多模态研究中的热点问题，尤其是在大规模视频-语言预训练方面。然而，长视频学习面临的核心难点是如何编码视频中的时序动态。目前的方法主要集中于设计定制化的视频网络编码器来捕捉长时依赖，但这通常需要巨大的资源开销。为了解决这一问题，研究者提出了一种新的长视频学习方法，该方法通过视频-段落级对比学习和片段-标题级对比学习，从多个粒度学习视频表征，显著节省了训练时间。

在实验部分，研究者通过视频检索、问答、动作分割等任务验证了该方法的有效性。特别是在长视频检索任务中，该方法在YouCookII数据集上表现出色，无论是在保留背景还是移除背景的场景下。此外，研究者还对噪声关联鲁棒性进行了分析，结果表明该方法能够有效处理噪声关联问题。

总结与展望部分指出，本文是噪声关联学习领域的深入研究，提出了一种新的长视频学习方法，能够以较低的资源开销扩展到更广泛的视频数据中。未来研究可以进一步探讨多种模态间的关联问题，例如结合视觉、文本和音频信号，以及尝试结合外部大语言模型或多模态模型来清洗和重组织文本语料。此外，还可以探索将噪声作为模型训练正激励的可能性。