谷歌最强大模型免费开放了！长音频理解功能独一份，100万上下文敞开用

AIGC动态1年前 (2024)发布 QbitAI

2,791 0 0

文章摘要

Gemini 1.5 Pro是谷歌最强大的模型，现在全面对外开放，免费供开发者使用。这个版本增加了音频理解功能，可以解析各种音频内容，无需提供字幕文档。Gemini 1.5 Pro具有100万的上下文窗口，可以处理长达11小时的音频和1小时的视频。开发者可以在谷歌AI Studio中获得API密钥，体验模型的功能。Gemini 1.5 Pro还提供了系统指令、JSON模式和函数调用等新功能，以及可以调用谷歌的下一代文本嵌入模型text-embedding-004。这个模型在MTEB基准上表现出色，优于同类模型。

Gemini 1.5 Pro于两个月前发布，是Gemini Pro的升级版，最大的特点是上下文窗口长度从128k扩展到最多100万。模型的响应时间大约在20秒到1分钟，稍显慢，但谷歌承诺会优化延迟时间。Gemini 1.5 Pro发布后，网友分享了一些内测结果，包括判断视频是否AI生成、分析NBA扣篮视频、比较电影脚本等。Gemini 1.5 Pro还能帮助发现代码bug，通过观看录像来改正bug。Gemini 1.5 Pro API的全面开放让用户更深入地体验其功能，尽管速率限制较高，每分钟请求量为5次，每分钟token为1000万个，每日请求量为2000个。Gemini 1.5 Pro的发布受到了广泛关注，其强大的功能和性能让人印象深刻。