前端不存在了？盲测64%的人更喜欢GPT-4V的设计，杨笛一等团队新作

AIGC动态2年前 (2024)发布 almosthuman2014

1,873 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

在最近的央视节目中，百度CEO李彦宏预测了编程语言的未来，认为未来只会存在两种编程语言：英文和中文。这一观点基于大模型技术突破后，自动化趋势在各行各业的兴起，尤其是软件开发领域。ChatGPT等工具能够根据自然语言指令生成代码，显示出AI在替代程序员方面的潜力。

前端工程师面临的挑战是如何将视觉设计转化为功能性代码。这一过程需要理解视觉元素和布局，并将它们转换为结构化代码。目前，基于自然语言的代码生成技术发展迅速，但基于用户界面（UI）设计自动生成代码的研究相对较少。多模态LLM（如Flamingo、GPT-4V和Gemini）的出现为这一任务提供了新的解决方案。

斯坦福大学和佐治亚理工学院的联合团队评估了多模态模型在自动化前端工程任务上的表现。他们提出了Design2Code任务，并构建了首个真实世界基准，包含484个高质量、高难度和多样化的网页。为了评估模型性能，他们开发了一系列评估指标，包括边界框匹配、文本内容、位置和颜色等。

研究者发现，尽管商用模型如GPT-4V和Gemini Pro Vision在任务上表现出色，但它们作为黑箱模型缺乏透明度。为了解决这个问题，团队贡献了一个开源的18B参数微调模型Design2Code-18B。尽管训练数据与真实测试数据存在差异，但该模型在新基准上的表现与Gemini Pro Vision相当。

自动评估结果显示，GPT-4V在多个维度上表现最佳，而文本增强式prompt设计可以提升块元素匹配分数和文本相似度分数。人类评估结果显示，GPT-4V生成的网页在49%的案例中可与参考网页互换，且在64%的案例中被认为比原始设计更好。然而，尽管AI生成的网页在某些方面优于原始设计，但实现完全自动化的前端工程仍需时间，因为前端工作流程的复杂性远超表面所见。