何恺明刘壮新作：消除数据集偏差的十年之战

AIGC动态1年前 (2024)发布 QbitAI

2,099 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★☆

文章摘要

这篇文章介绍了MIT新晋副教授何恺明与刘壮合作完成的研究，针对AI发展中长期存在的数据集偏差问题展开探讨。过去十多年来，尽管业界努力构建更大、更多样化、更全面、偏差更小的数据集，但现代神经网络似乎越来越善于识别和利用这些数据集中的偏差。研究团队设计了一个虚构的数据集分类任务，发现现代神经网络架构在区分不同数据集的图像上表现出惊人的一致性，准确率超过80%。实验结果显示，神经网络并非单纯记忆每张图像，而是学到了数据集特有的模式。即使在自监督学习的设置下，神经网络也能以超过70%的准确率区分不同数据集。研究呼吁整个AI社区重新审视数据集偏差问题，并重新思考如何在算法和数据两个层面上应对挑战。

何恺明与刘壮的合作得益于他们在Meta期间的合作，而何恺明目前已在MIT担任电气工程与计算机科学系的助理教授。刘壮本科毕业自清华，是CVPR2017最佳论文DenseNet的第一作者，之后在加州大学伯克利分校攻读博士学位，并在Meta AI Research工作。他与谢赛宁合作发表了ConvNeXt。整体而言，这篇研究引发了对数据集偏差问题的关注，提出了神经网络对数据集偏差的敏感性，并呼吁AI社区重新思考如何解决这一挑战。