文章摘要
【关 键 词】 谷歌、Gemini、音频理解、文本嵌入、模型升级
Gemini 1.5 Pro是谷歌最强大的模型,现在全面对外开放,免费供开发者使用。这个版本增加了音频理解功能,可以解析各种音频内容,无需提供字幕文档。Gemini 1.5 Pro具有100万的上下文窗口,可以处理长达11小时的音频和1小时的视频。开发者可以在谷歌AI Studio中获得API密钥,体验模型的功能。Gemini 1.5 Pro还提供了系统指令、JSON模式和函数调用等新功能,以及可以调用谷歌的下一代文本嵌入模型text-embedding-004。这个模型在MTEB基准上表现出色,优于同类模型。
Gemini 1.5 Pro于两个月前发布,是Gemini Pro的升级版,最大的特点是上下文窗口长度从128k扩展到最多100万。模型的响应时间大约在20秒到1分钟,稍显慢,但谷歌承诺会优化延迟时间。Gemini 1.5 Pro发布后,网友分享了一些内测结果,包括判断视频是否AI生成、分析NBA扣篮视频、比较电影脚本等。Gemini 1.5 Pro还能帮助发现代码bug,通过观看录像来改正bug。Gemini 1.5 Pro API的全面开放让用户更深入地体验其功能,尽管速率限制较高,每分钟请求量为5次,每分钟token为1000万个,每日请求量为2000个。Gemini 1.5 Pro的发布受到了广泛关注,其强大的功能和性能让人印象深刻。
原文和模型
【原文链接】 阅读原文 [ 1300字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...