拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

645 0 0

文章摘要

阿里最新发布的多模态模型Qwen-VLo在图像生成和编辑领域展现了强大的能力，引发了广泛关注。该模型在原有的多模态理解和生成能力基础上进行了全面升级，具备三大核心亮点：增强的细节捕捉能力，能够在生成过程中保持高度语义一致性；一键式图像编辑功能，支持风格替换、素材增删、添加文字等操作；多语言支持，方便全球用户使用。此外，Qwen-VLo在输入和输出端均支持任意分辨率和长宽比，突破了传统模型的格式限制。

在官方演示中，Qwen-VLo不仅能够完成连续生成、吉卜力风格、添加文字等常见任务，还展现了其独特的“理解”能力。例如，用户可以通过简单的指令生成“洗浴用品都在购物篮里”的图片，模型能够准确理解并快速生成符合要求的图像。此外，Qwen-VLo还具备图像识别和解释能力，能够正确识别图像中的物体并对其进行注释，如检测和分割。例如，在生成图像后，模型能够准确识别图中的虎斑猫和比格犬，并用红色Mask分割出香蕉的边缘。

在实际测试中，Qwen-VLo的编辑能力尤为突出。用户可以通过简单的指令对图像进行多次编辑，例如将北极熊喝可乐的图片中的可乐替换为牛奶，或将小鸟替换为鸽子。尽管在细节上可能存在微小差异，但整体效果令人满意。此外，Qwen-VLo还支持多步骤任务，如生成草图、上色、加字、编辑汉字等，展现了其在复杂任务中的稳定性和灵活性。

与GPT-4o不同，Qwen-VLo的生成过程采用了渐进式生成机制，不仅从上到下逐块生成图像，还从左至右逐步构建整幅图片。这种生成方式不仅提升了视觉效果和生成效率，还特别适用于需要精细控制的长段落文字生成任务，如广告设计或漫画分镜。Qwen官方表示，这种生成机制能够确保最终结果更加和谐一致，进一步提升了模型的应用价值。

网友实测也展现了Qwen-VLo的多样性和趣味性。用户可以通过模型生成动漫角色草图并一键上色，或让小猫担任宣传员生成带有“Qwen Chat”字样的看板。此外，Qwen团队成员还分享了吉卜力风格的图像生成示例，进一步展示了模型的创意潜力。目前，Qwen-VLo已免费开放供用户体验，用户可以通过在线平台进行体验并分享自己的创意作品。

总的来说，Qwen-VLo凭借其强大的图像生成和编辑能力、多语言支持以及渐进式生成机制，为用户提供了全新的多模态体验。其免费开放的政策也为更多用户提供了探索和创新的机会，进一步推动了多模态技术的发展和应用。