作者信息
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era
文章摘要
【关 键 词】 Gemini 1.5、AI测试、视频分析、上下文窗口、多模态
新智元报道:谷歌的Gemini 1.5模型在AI圈大佬们的极限测试中展现出了强大的实力。这些测试包括分析视频内容、处理长视频和音频、翻译稀有语言、理解长论文和电影剧本等。Gemini 1.5在处理1,000,000 token上下文时表现出色,能够处理长达1小时的视频、11小时的音频、超过30,000行的代码库或700,000个单词的文本。在多模态海底捞针测试中,Gemini 1.5 Pro在处理高达1000万token的文本时,检索准确性高达99.2%。
在视频分析方面,Gemini 1.5能够准确识别出AI生成的视频痕迹,例如分析樱花雪景视频时指出视频中的不合理之处。在处理长视频和音频时,Gemini 1.5能够理解并比较电影脚本,甚至从长视频中找到特定内容。此外,Gemini 1.5还能够翻译稀有语言,如萨特兰语,并从长论文中提取信息。
尽管Gemini 1.5在某些极限测试中表现出色,但在某些任务上仍有改进空间,例如在生成以特定单词结尾的句子时未能成功。总体而言,Gemini 1.5在多模态处理和长文本理解方面展现出了强大的潜力。
原文信息
【原文链接】 阅读原文
【原文字数】 2738
【阅读时长】 10分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...