Gemini一眼识破Sora视频是AI生成？百万token上下文能力碾压GPT-4

AIGC动态2年前 (2024)发布 AIera

2,593 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 Gemini 1.5、AI测试、视频分析、上下文窗口、多模态

新智元报道：谷歌的Gemini 1.5模型在AI圈大佬们的极限测试中展现出了强大的实力。这些测试包括分析视频内容、处理长视频和音频、翻译稀有语言、理解长论文和电影剧本等。Gemini 1.5在处理1,000,000 token上下文时表现出色，能够处理长达1小时的视频、11小时的音频、超过30,000行的代码库或700,000个单词的文本。在多模态海底捞针测试中，Gemini 1.5 Pro在处理高达1000万token的文本时，检索准确性高达99.2%。

在视频分析方面，Gemini 1.5能够准确识别出AI生成的视频痕迹，例如分析樱花雪景视频时指出视频中的不合理之处。在处理长视频和音频时，Gemini 1.5能够理解并比较电影脚本，甚至从长视频中找到特定内容。此外，Gemini 1.5还能够翻译稀有语言，如萨特兰语，并从长论文中提取信息。

尽管Gemini 1.5在某些极限测试中表现出色，但在某些任务上仍有改进空间，例如在生成以特定单词结尾的句子时未能成功。总体而言，Gemini 1.5在多模态处理和长文本理解方面展现出了强大的潜力。