实测Gemini图片转视频新功能，终于蹲到经典梗图后续了（doge）

39 0 0

文章摘要

Gemini最近推出了一项新功能，能够将图片转换为带有音效的视频，这一功能迅速引起了广泛关注。官方示例展示了打开盒子后出现的各种场景，音效丰富且有趣，引发了用户对功能细节的诸多疑问，例如盒子内容的多样性、音效的生成逻辑以及功能的实际应用场景。为了深入了解这一功能，进行了一系列实测。

首先，测试了不同盒子的打开效果。通过官方提供的指令，生成了仓鼠在厨房做饭的场景，虽然生成速度较快，但展现效果较为简单，蝴蝶结的处理也显得粗糙。随后，尝试了繁忙小城市和迷你摇滚音乐会的场景，生成速度依然较快，但画面中的塑料手臂和行李箱方向的变化略显突兀，尽管如此，音效表现令人满意。接着，测试了金属电梯的场景，虽然提示词中包含了“叮咚”声，但实际生成视频中并未出现，整体风格统一但细节有待提升。

在进一步探索中，尝试了为经典梗图添加音效和后续场景。例如，蓝色格子衫男性对红色衣服女性吹口哨的场景，生成结果与预期不符，背景虽一致但主体行为偏差较大。随后，测试了青蛙玩偶喝水的场景，生成逻辑较为合理，但音效与预期不符。此外，尝试了黑猫咬鲨鱼和男性调整衣领的场景，前者生成效果如梦似幻，后者则因真人形象限制未能成功生成。

最后，尝试了更具想象力的场景，如电影开场和变形金刚的转换。虽然提示词包含丰富要素，但生成结果与预期差距较大，尤其是变形金刚的转换效果不尽如人意。总体而言，Gemini的新功能基于Veo 3 Fast技术，生成视频长度约为7-8秒，速度较快，音效表现优秀，但对具体真人形象和不良引导内容有所限制。用户在使用时需提供更详细的提示词以获得更精确的生成结果。这一功能为创意表达提供了新的可能性，值得进一步探索和尝试。