ControlNet作者搞起大模型:让天下没有难写的生图提示词,一句话变构图小作文

AIGC动态7个月前发布 QbitAI
1,090 0 0
ControlNet作者搞起大模型:让天下没有难写的生图提示词,一句话变构图小作文

 

文章摘要


【关 键 词】 人工智能绘画生成提示词高效操控图像质量

量子位报道,ControlNet作者Lvmin Zhang推出了新项目Omost,旨在通过人工智能技术解决AI绘画中的提示词写作难题。用户只需提供一句简单的提示词,Omost即可自动“构图”生成相应的图像。例如,输入“一幅有趣的卡通蝙蝠侠与小丑战斗的图画”,系统便能生成相应的画面。

Omost这个名字有两层含义:一是与英文单词almost(几乎)发音相似,表示每次使用Omost后,用户所需的图像几乎就完成了;二是“O”代表“omni”(全能的),而“most”表示希望最大限度地利用它。项目采用了基于Llama3和Phi3变体的三种大模型,使AI能够详细地指定图像中各个元素的位置和大小,甚至可以修改已生成图像中的某个元素。

具体实现上,Omost通过划分图像的3×3位置和偏移量,定义了729个不同的边界框,几乎涵盖了图像中元素的所有常见可能位置。此外,通过distance_to_viewerHTML_web_color_name参数调整视觉表现,实现了对图像生成更精细的控制。Lvmin Zhang还提供了一个基于注意力操纵的Omost LLM的baseline渲染器,并探讨了区域引导的扩散系统的实现选择。

为了进一步提升提示理解,Lvmin Zhang提出了“提示前缀树”概念,通过合并任意子提示,改进结果和提示描述。这个项目已经开放了源代码和Demo,供感兴趣的用户尝试。

总的来说,Omost通过简化用户提示词写作过程,实现了对AI绘画的高效操控,提高了图像生成的质量和效率。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1961字 | 8分钟 ]
【原文作者】 量子位
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...