
文章摘要
【关 键 词】 多模态、图像编辑、细节捕捉、多语言、免费体验
阿里最新发布的多模态模型Qwen-VLo在图像生成和编辑领域展现了强大的能力,引发了广泛关注。该模型在原有的多模态理解和生成能力基础上进行了全面升级,具备三大核心亮点:增强的细节捕捉能力,能够在生成过程中保持高度语义一致性;一键式图像编辑功能,支持风格替换、素材增删、添加文字等操作;多语言支持,方便全球用户使用。此外,Qwen-VLo在输入和输出端均支持任意分辨率和长宽比,突破了传统模型的格式限制。
在官方演示中,Qwen-VLo不仅能够完成连续生成、吉卜力风格、添加文字等常见任务,还展现了其独特的“理解”能力。例如,用户可以通过简单的指令生成“洗浴用品都在购物篮里”的图片,模型能够准确理解并快速生成符合要求的图像。此外,Qwen-VLo还具备图像识别和解释能力,能够正确识别图像中的物体并对其进行注释,如检测和分割。例如,在生成图像后,模型能够准确识别图中的虎斑猫和比格犬,并用红色Mask分割出香蕉的边缘。
在实际测试中,Qwen-VLo的编辑能力尤为突出。用户可以通过简单的指令对图像进行多次编辑,例如将北极熊喝可乐的图片中的可乐替换为牛奶,或将小鸟替换为鸽子。尽管在细节上可能存在微小差异,但整体效果令人满意。此外,Qwen-VLo还支持多步骤任务,如生成草图、上色、加字、编辑汉字等,展现了其在复杂任务中的稳定性和灵活性。
与GPT-4o不同,Qwen-VLo的生成过程采用了渐进式生成机制,不仅从上到下逐块生成图像,还从左至右逐步构建整幅图片。这种生成方式不仅提升了视觉效果和生成效率,还特别适用于需要精细控制的长段落文字生成任务,如广告设计或漫画分镜。Qwen官方表示,这种生成机制能够确保最终结果更加和谐一致,进一步提升了模型的应用价值。
网友实测也展现了Qwen-VLo的多样性和趣味性。用户可以通过模型生成动漫角色草图并一键上色,或让小猫担任宣传员生成带有“Qwen Chat”字样的看板。此外,Qwen团队成员还分享了吉卜力风格的图像生成示例,进一步展示了模型的创意潜力。目前,Qwen-VLo已免费开放供用户体验,用户可以通过在线平台进行体验并分享自己的创意作品。
总的来说,Qwen-VLo凭借其强大的图像生成和编辑能力、多语言支持以及渐进式生成机制,为用户提供了全新的多模态体验。其免费开放的政策也为更多用户提供了探索和创新的机会,进一步推动了多模态技术的发展和应用。
原文和模型
【原文链接】 阅读原文 [ 1771字 | 8分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆