一键开关灯!谷歌用扩散模型,将电影级光影控制玩到极致

一键开关灯!谷歌用扩散模型,将电影级光影控制玩到极致

 

文章摘要


【关 键 词】 光影控制图像编辑扩散模型光源调整摄影技术

Google最近推出的LightLab项目,旨在通过单张图像实现对光源的细粒度参数化控制。这一技术允许用户调整可见光源的强度和颜色、环境光的强度,并能够将虚拟光源插入场景中。光线在图像或影视创作中扮演着至关重要的角色,它不仅决定了画面的焦点、景深、色彩,还能塑造角色情绪、烘托故事氛围。然而,传统的摄影后期处理和数字渲染调整在精确控制光影方向、颜色和强度方面存在挑战,通常需要大量照片或无法精确指定变化细节。

为了解决这一问题,Google的研究团队通过在一个特殊构建的数据集上微调扩散模型,使其学会如何精确地控制图像中的光照。数据集由少量真实的、带有受控光照变化的原始照片对和利用物理渲染器生成的大规模合成渲染图像组成。研究人员巧妙地利用了光的线性特性,从这些图像数据中分离出目标光源和环境光,从而合成出大量描绘不同光照强度和颜色变化的图像对。扩散模型通过学习这些高质量的成对示例,获得了强大的逼真光影先验能力,能够在图像空间中直接、隐式地模拟出复杂的照明效果,如间接照明、阴影和反射等。

LightLab模型最终实现了精确的照明变化控制,并提供对光照强度和色彩等参数的明确控制能力。用户可以通过移动滑块来调整每个光源的强度和颜色,从而创建复杂的光照效果。研究团队的方法使用成对图像来隐式建模图像空间中的受控光变化,这些变化用于训练扩散模型。对于真实照片对,研究团队首先分离出目标光源的变化;对于合成数据,研究团队分别渲染每个光源组件,并在线性颜色空间中创建参数化的图像序列。

研究团队还采用了不同的条件方案来处理局部空间信号和全局控制信号。空间条件包括输入图像、输入图像的深度图,以及两个空间分割掩码,分别用于目标光源的强度变化和颜色。全局控制(环境光强度和色调映射策略)被投影到文本嵌入维度,并通过交叉注意力机制插入。

为了构建数据集,研究团队使用现成的移动设备、三脚架和触发设备捕捉了一组600对原始照片,每对照片描绘相同的场景,唯一的物理变化是打开一个可见光源。数据集提供了几何形状、材料外观和复杂光现象的详细信息,这些信息在合成渲染数据中可能无法找到。研究团队将“off image”视为环境光照,并从目标光源中提取光照,避免因捕获的噪声或后期校准过程中的误差产生的意外暗淡。

在实验中,研究团队对一个文本到图像的潜在扩散模型进行微调,训练大约需要12小时,使用64个v4 TPU。评估结果显示,使用来自两个域的数据混合取得了最佳结果。研究团队的方法显著优于先前的方法,忠实地控制目标光源,并生成物理上合理的照明。

LightLab的应用包括对照片进行后捕获的光源控制、光强度调整、颜色控制、虚拟点光源插入以及物理上合理的光照控制。这一技术为图像编辑和影视创作提供了强大的工具,能够显著提升视觉效果和创作灵活性。更多详细内容请参见原论文。

原文和模型


【原文链接】 阅读原文 [ 2839字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...