谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

AIGC动态8个月前发布 QbitAI
1,092 0 0
谷歌最强大模型免费开放了!长音频理解功能独一份,100万上下文敞开用

 

文章摘要


【关 键 词】 谷歌Gemini音频理解文本嵌入模型升级

Gemini 1.5 Pro是谷歌最强大的模型,现在全面对外开放,免费供开发者使用。这个版本增加了音频理解功能,可以解析各种音频内容,无需提供字幕文档。Gemini 1.5 Pro具有100万的上下文窗口,可以处理长达11小时的音频和1小时的视频。开发者可以在谷歌AI Studio中获得API密钥,体验模型的功能。Gemini 1.5 Pro还提供了系统指令、JSON模式和函数调用等新功能,以及可以调用谷歌的下一代文本嵌入模型text-embedding-004。这个模型在MTEB基准上表现出色,优于同类模型。

Gemini 1.5 Pro于两个月前发布,是Gemini Pro的升级版,最大的特点是上下文窗口长度从128k扩展到最多100万。模型的响应时间大约在20秒到1分钟,稍显慢,但谷歌承诺会优化延迟时间。Gemini 1.5 Pro发布后,网友分享了一些内测结果,包括判断视频是否AI生成、分析NBA扣篮视频、比较电影脚本等。Gemini 1.5 Pro还能帮助发现代码bug,通过观看录像来改正bug。Gemini 1.5 Pro API的全面开放让用户更深入地体验其功能,尽管速率限制较高,每分钟请求量为5次,每分钟token为1000万个,每日请求量为2000个。Gemini 1.5 Pro的发布受到了广泛关注,其强大的功能和性能让人印象深刻。

原文和模型


【原文链接】 阅读原文 [ 1300字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...