文章摘要
视频创作在AIGC时代迎来了全新的变革。通过AI技术,视频创作变得更加简单和高效。例如,用户可以轻松地将目标对象从视频中分离出来,并嵌入不同的背景视频中,场景变换变得非常容易。此外,AI还可以一键调整镜头角度,消除或修改视频中的目标对象,从而大大减少了后期制作的工作量。
阿里达摩院在上海世界人工智能大会上展示了其最新的AI视频创作平台“寻光”。这个平台不仅仅是一个技术演示,而是即将开放内测的一站式AI视频创作平台。寻光将传统视频制作流程中的剧本创作、分镜图设计、视频素材编辑等步骤整合在一个平台上,通过AI技术实现流畅的操作。
寻光平台的目标是通过AI技术重塑传统视频制作的全流程。与其他AI视频生成模型不同,寻光关注的是视频工作流的变革。当前,AI视频内容的可控编辑和复杂剧情的理解仍然是算法面临的挑战。此外,业界尚没有统一的AI视频编辑平台,能够让创作者一站式体验AI加持的视频创作全流程。
寻光平台可以辅助用户创作剧本和分镜图,并支持对生成及上传素材进行丰富的AI编辑,包括人物控制、场景控制、运镜控制、目标新增、消除和修改等功能。在交互方面,寻光强调“让视频编辑像操作PPT一样简单”。用户可以通过简单的拖拽操作对分镜头进行调整,并调用多种多模态生成模型生产新的内容。
在编辑功能方面,寻光提供了精细化的编辑和控制。用户可以在语义层面而不是像素层面实现编辑,视频中的人体、人脸、前景、背景等任意局部目标都可以进行精细化的编辑和修改。寻光还支持图层拆解功能,用户可以选择视频中的物体,算法会自动跟踪并形成独立的带透明背景的视频图层。
寻光平台还提供了多种风格迁移和运镜控制功能,支持左右平移、上下平移、推进拉远、左右环绕等操作。此外,平台还能实现人脸的精准控制和运动控制,使视频编辑更加方便和高效。
达摩院视觉技术实验室的高级算法专家陈威华在大会上强调了基于视频图层的编辑能力。用户可以通过文本输入生成具有透明背景的视频,并一键将其融合到其他背景视频中。寻光平台的目标是成为每个创作者的专属视频工作室,通过AI与创作者之间的紧密协作,提高视频创作的效率。
达摩院视觉技术实验室致力于多模态视觉信号的理解与生成技术研究,当前的重点研究方向包括更加精准的图像、视频、3D内容生成和编辑,更加高效的生成框架等。AIGC在全球范围内引发了生产力变革的热潮,寻光平台的推出标志着解放生产力的第一步已经开始落地实践。
原文和模型
【原文链接】 阅读原文 [ 2462字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4o
【摘要评分】 ★★★★★