图像编辑开源新SOTA，来自多模态卷王阶跃！大模型行业正步入「多模态时间」

1,270 0 0

文章摘要

全球AI大模型的发展正迅速进入“多模态时代”，这一趋势不仅体现在技术进展上，也反映在应用和落地的需求中。多模态技术已成为AI领域的关键能力，尤其是在智能终端和Agent的应用场景中。阶跃星辰作为行业内的“多模态卷王”，在过去一个月内连续发布了三款多模态模型，进一步巩固了其在这一领域的领先地位。

阶跃星辰发布的三款多模态模型包括Step1X-Edit图像编辑模型、Step-R1-V-Mini多模态推理模型和Step-Video-TI2V图生视频模型。其中，Step1X-Edit首次在开源体系中实现了多模态大模型（MLLM）与DiT的解耦式架构，显著提升了图像编辑的准确性和控制力。该模型在语义一致性、图像质量和综合得分等指标上全面领先现有开源模型，甚至比肩GPT-4o和Gemini 2.0 Flash等闭源模型。Step-R1-V-Mini则是一款轻量级但功能强大的多模态推理模型，能够高精度感知图像并完成复杂推理任务，在视觉推理榜单MathVision中位列国内第一。Step-Video-TI2V则是一款开源图生视频模型，支持生成102帧、5秒、540P分辨率的视频，具备运动幅度和镜头运动可控的核心特点。

阶跃星辰的多模态模型不仅在技术上表现出色，还在实际应用中展现了强大的落地能力。目前，阶跃已发布的21款模型中，多模态模型占比超过七成，覆盖了语言、语音、图像、视频和推理五大方向。这些模型已被广泛应用于智能终端Agent场景，包括智能汽车、手机、具身智能和IoT等领域。例如，阶跃与吉利汽车集团合作，推动“AI+车”的深度融合，展示了基于阶跃多模态技术打造的智能座舱；在手机终端场景中，阶跃的多模态模型已在OPPO旗舰机型中落地应用，支持“一键问屏”和“一键全能搜”等创新功能。

阶跃星辰的成功不仅在于其技术实力，还在于其战略布局和生态合作。通过与行业头部玩家的深度合作，阶跃实现了从技术研发到场景落地的全价值链闭环。这种深度绑定模式不仅提升了竞争壁垒，也为阶跃在垂直领域的扎根和深挖提供了有力支持。此外，阶跃的开源策略也加速了其生态裂变，吸引了大量开发者和合作伙伴的加入。

AI大模型的多模态化已成为不可逆转的趋势，阶跃星辰在这一领域的持续投入和创新，不仅推动了技术的进步，也为智能终端Agent的应用开辟了新的可能性。随着多模态技术的不断成熟，AI模型正从“文字处理器”进化为“世界解读者”，这一转变将深刻影响未来的技术发展和应用场景。拒绝多模态进化的AI模型与应用，或将在这场数字达尔文主义的淘汰赛中失去竞争力。