腾讯图生视频全面开源，更懂物理规律，一手实测来了

1,764 0 0

文章摘要

腾讯近日发布了其最新的图生视频模型，进一步补齐了其在视频生成领域的技术拼图。该模型与去年12月发布的文生视频模型HunyuanVideo一样，发布即开源，用户可免费体验，但有一定的次数限制。这一新功能在画质、物体一致性等方面有了显著提升，用户甚至可以用它制作电影。为了展示该模型的能力，测试团队从视频生成领域的一些难题入手，进行了详细实测。

首先，测试团队考察了模型在生成符合现实物理规律视频方面的表现。通过让模型还原运动员跳水的场景，发现整体画面较为高清，质量相比早期模型有明显进步，但仍存在一些细节问题，如运动员左手比例失调、手势变换时的抠图感等。这表明，尽管模型在物理规律还原上有所提升，但仍有改进空间。

其次，测试团队考察了模型在“无中生有”方面的能力。通过输入一张草原图片并提示“图中出现了一匹马”，模型成功生成了一匹白色骏马在草原上行走的视频。然而，模型在生成文字方面表现不佳，无法直接在视频中生成文字，但可以通过间接方法实现，即先在图片中生成文字，再将图片转换为动态视频。

接下来，测试团队考察了模型在准确遵循指令方面的表现。通过上传图片并搭配文字提示词，模型能够生成符合用户意图的视频。例如，输入“一位外国美女穿着汉服，头发飘扬，背景是长城，然后镜头切换到正面特写”的提示词，模型生成的视频在镜头切换和发丝飘扬方面表现自然，但在细节一致性上仍有改进空间。

最后，测试团队考察了模型在保证连贯一致性方面的表现。通过生成镜子题材的视频，发现模型在光影理解和镜子内外主体运动一致性上表现出色，整体效果相当丝滑。这表明，模型在动作、场景过渡和连贯性方面有了显著提升。

实测下来，腾讯混元的图生视频新功能在这些最难挑战上有了很大进步，但离100%符合物理规律和完全一致性仍有一段距离。官方还提供了使用提示词的小技巧，建议用户在提示词中明确主体、动作和运镜方式，以获得更优的生成效果。与此同时，网友们的第一波实测也已出炉，感兴趣的玩家可以免费体验该功能。