多模态 | 第 22 页

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

智源研究院联合多所高校发布了超长视频理解大模型Video-XL，该模型利用语言模型的原生能力对长视觉序列进行压缩，不仅保留了短视频理解的能力，还在长视频理...

AIGC动态

10个月前

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

智谱清言近期宣布全量上线「情感语音通话」功能，为用户带来端到端的情感语音体验。该功能在响应速度、情绪感知、语音表达、多语言支持等方面实现突破，提供...

AIGC动态

10个月前

7天开发一个AI Agent应用！秘密武器：一体化数据库

OceanBase最近推出了4.3.3版本，这是其首个面向实时分析处理场景的GA版本。该版本通过增强多模态数据处理能力和推出全新的向量检索功能，实现了SQL+AI一体化...

AI-Agent

11个月前

讯飞星火爆震撼大招，七项第一11个首发！年度最逼真虚拟人萌翻全场，多模态抢先GPT-4o

在2024科大讯飞全球1024开发者节上，科大讯飞发布了讯飞星火4.0 Turbo，这是首个基于全国产算力训练的全面开放大模型。该模型在9项国际主流测试集中均取得第...

AIGC动态

11个月前

安卓版下载量超2亿！科大讯飞的星火4.0 Turbo性能效率提升50%，7项能力超越GPT-4 Turbo｜钛媒体AGI

科大讯飞在1024开发者节上宣布了讯飞星火4.0 Turbo的全新升级，该版本在七大能力上全面超越了GPT-4 Turbo，特别是在数学和代码能力上。预计到年底，讯飞星火...

AIGC动态

11个月前

全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向｜钛媒体AGI

北京智源人工智能研究院（BAAI）近日发布了全球首个原生多模态世界模型Emu3，该模型采用了自回归技术路线，参数量达到8B（80亿），能够将图像、文本和视频编...

AIGC动态

11个月前

预测下个token就能通往AGI，智源Emu3有世界模型的味儿了

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3，这是一个基于下一个token预测的模型，能够处理文本、图像、视频三种模态数据的理解和生成，而无需...

AIGC动态

11个月前

视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3，这是一个基于下一个token预测的模型，能够在无需扩散模型或组合方法的情况下，完成文本、图像、视...

AIGC动态

11个月前

Ilya观点得证！仅靠预测下一个token统一图像文本视频，智源发布原生多模态世界模型Emu3

智源研究院发布了原生多模态世界模型Emu3，该模型基于下一个token预测，无需依赖扩散模型或组合方法，能够完成文本、图像、视频三种模态数据的理解和生成。Em...

AIGC动态

11个月前

Ilya预言成真，下一个token预测直达AGI！智源首发原生多模态世界模型Emu3，不用扩散

智源研究院最近发布了一款名为Emu3的原生多模态世界模型，该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据，而无需依赖扩散模型或组合方...

AIGC动态

11个月前

标签：多模态

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

7天开发一个AI Agent应用！秘密武器：一体化数据库

讯飞星火爆震撼大招，七项第一11个首发！年度最逼真虚拟人萌翻全场，多模态抢先GPT-4o

安卓版下载量超2亿！科大讯飞的星火4.0 Turbo性能效率提升50%，7项能力超越GPT-4 Turbo｜钛媒体AGI

全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向｜钛媒体AGI

预测下个token就能通往AGI，智源Emu3有世界模型的味儿了

视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式

Ilya观点得证！仅靠预测下一个token统一图像文本视频，智源发布原生多模态世界模型Emu3

Ilya预言成真，下一个token预测直达AGI！智源首发原生多模态世界模型Emu3，不用扩散

热门网址

标签：多模态

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址