当AI遇上心理学:如何让AI的眼神更像人?|AAAI 2025

当AI遇上心理学:如何让AI的眼神更像人?|AAAI 2025

 

文章摘要


【关 键 词】 人工智能多模态交互注视预测物理模型人机交互

高瓴人工智能学院宋睿华团队与跨学科研究者合作开发的EyEar技术,成功实现了对人类视听同步场景下注视轨迹的预测。该模型通过结合物理启发的动力系统和多模态信息融合,在AAAI 2025收录的研究中展现出比最佳基线模型高15%的性能优势。这项突破为虚拟角色实现类人化眼神交互提供了新路径。

研究团队针对传统注视轨迹预测仅依赖视觉信息的局限性,提出了名为“音频同步视觉”的新任务框架。输入图像与对应音频的时间对齐信息后,模型需预测人类在听到每个词语时对应的图像注视点。其核心创新在于建立包含三种作用力的动力系统:眼球固有运动趋势由弹簧系统模拟,视觉显著吸引力通过DeepGaze IIE模型提取,音频语义吸引力则通过多模态注意力机制实现。这种三力协同机制首次将听觉语义与视觉注意进行量化建模。

为解决个体注视差异带来的评估难题,团队开发了概率密度评分方法(PDS)。该方法将离散注视点转化为概率分布,通过计算预测点在该分布中的概率密度实现稳定评估。实验表明,相比传统均方误差指标,PDS能有效处理多峰分布的注视数据,如在包含多台电脑的图像中准确识别分簇注视模式。

研究构建了包含20,000个注视点的新型数据集,通过8名受试者在视听同步任务中的眼动追踪数据验证模型效能。该数据集首次实现音频时间戳与注视轨迹的毫秒级对齐,且平均注视序列长度达到现有数据集的3倍。对比测试显示,EyEar在注视位置预测精度和运动轨迹平滑度两个维度均超越基于图文对齐、视觉定位的基线模型。

技术应用方面,EyEar生成的注视轨迹展现出类人的“语义跟随”特性,例如在听到“奔跑”时呈现Z字形扫视模式,与人类观察运动场景的眼动特征高度吻合。当前模型仍存在约200ms的响应延迟,团队计划通过视频场景扩展和开放式音频处理进一步优化。这项研究不仅推动了多模态感知技术的发展,更为心理学领域的注意机制研究提供了可量化的计算模型。

原文和模型


【原文链接】 阅读原文 [ 2031字 | 9分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-r1
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...