实测Gemini图片转视频新功能,终于蹲到经典梗图后续了(doge)

AIGC动态5小时前发布 QbitAI
39 0 0
实测Gemini图片转视频新功能,终于蹲到经典梗图后续了(doge)

 

文章摘要


【关 键 词】 图片转视频音效生成速度展现效果有趣程度

Gemini最近推出了一项新功能,能够将图片转换为带有音效的视频,这一功能迅速引起了广泛关注。官方示例展示了打开盒子后出现的各种场景,音效丰富且有趣,引发了用户对功能细节的诸多疑问,例如盒子内容的多样性、音效的生成逻辑以及功能的实际应用场景。为了深入了解这一功能,进行了一系列实测。

首先,测试了不同盒子的打开效果。通过官方提供的指令,生成了仓鼠在厨房做饭的场景,虽然生成速度较快,但展现效果较为简单,蝴蝶结的处理也显得粗糙。随后,尝试了繁忙小城市和迷你摇滚音乐会的场景,生成速度依然较快,但画面中的塑料手臂和行李箱方向的变化略显突兀,尽管如此,音效表现令人满意。接着,测试了金属电梯的场景,虽然提示词中包含了“叮咚”声,但实际生成视频中并未出现,整体风格统一但细节有待提升。

在进一步探索中,尝试了为经典梗图添加音效和后续场景。例如,蓝色格子衫男性对红色衣服女性吹口哨的场景,生成结果与预期不符,背景虽一致但主体行为偏差较大。随后,测试了青蛙玩偶喝水的场景,生成逻辑较为合理,但音效与预期不符。此外,尝试了黑猫咬鲨鱼和男性调整衣领的场景,前者生成效果如梦似幻,后者则因真人形象限制未能成功生成。

最后,尝试了更具想象力的场景,如电影开场和变形金刚的转换。虽然提示词包含丰富要素,但生成结果与预期差距较大,尤其是变形金刚的转换效果不尽如人意。总体而言,Gemini的新功能基于Veo 3 Fast技术,生成视频长度约为7-8秒,速度较快,音效表现优秀,但对具体真人形象和不良引导内容有所限制。用户在使用时需提供更详细的提示词以获得更精确的生成结果。这一功能为创意表达提供了新的可能性,值得进一步探索和尝试。

原文和模型


【原文链接】 阅读原文 [ 2045字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...