谷歌发布最新「读屏」AI！PaLM 2-S自动生成数据，多项理解任务刷新SOTA

AIGC动态2年前 (2024)发布 AIera

2,531 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 ScreenAI、谷歌、视觉语言模型、自动数据生成、多模态任务

摘要：
谷歌的最新研究成果ScreenAI是一个强大的视觉语言模型，它在理解和操作用户界面方面取得了显著进展。这个模型能够执行屏幕问答、内容摘要等多种任务，通过新的屏幕截图文本表示方法，识别UI元素的类型和位置。ScreenAI的核心是结合了视觉编码器和语言编码器的多模态编码器块，以及一个自回归解码器。研究人员受到PaLI模型架构的启发，进一步扩展了编码器-解码器架构，使其能够适应不同分辨率和宽高比的屏幕截图。

为了训练ScreenAI，谷歌团队采用了自动数据生成策略，利用小模型生成和标记数据，提高了数据集的多样性和复杂性。模型在预训练阶段通过自监督学习和合成数据生成来理解文本元素和屏幕组件。在微调阶段，模型通过人类评估者提供的标记数据进行训练，以提高性能。

ScreenAI在多个与屏幕和信息图形相关的任务上展现了领先性能。实验结果表明，增加模型规模可以显著提升性能，尤其是在需要复杂视觉文本和算术推理的任务上。此外，pix2struct分割策略在处理不同长宽比的图像时表现优于固定网格分割。

尽管ScreenAI在某些任务上仍需进一步研究，但其在语言和声控计算机界面领域已经迈出了重要一步。谷歌研究人员表示，他们将继续努力，以缩小与GPT-4和Gemini等更大模型的差距。

原文信息

【原文链接】 阅读原文
【阅读预估】 2208 / 9分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。