标签:多模态

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

智源近日推出了OmniGen,这是一种新的扩散模型架构,旨在统一图像生成的多模态模型。OmniGen以其统一性、简单性和知识迁移能力为特点,支持多种图像生成任务...

一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

智源研究院联合多所高校发布了超长视频理解大模型Video-XL,该模型利用语言模型的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,还在长视频理...

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

智谱清言近期宣布全量上线「情感语音通话」功能,为用户带来端到端的情感语音体验。该功能在响应速度、情绪感知、语音表达、多语言支持等方面实现突破,提供...

7天开发一个AI Agent应用!秘密武器:一体化数据库

OceanBase最近推出了4.3.3版本,这是其首个面向实时分析处理场景的GA版本。该版本通过增强多模态数据处理能力和推出全新的向量检索功能,实现了SQL+AI一体化...

讯飞星火爆震撼大招,七项第一11个首发!年度最逼真虚拟人萌翻全场,多模态抢先GPT-4o

在2024科大讯飞全球1024开发者节上,科大讯飞发布了讯飞星火4.0 Turbo,这是首个基于全国产算力训练的全面开放大模型。该模型在9项国际主流测试集中均取得第...

安卓版下载量超2亿!科大讯飞的星火4.0 Turbo性能效率提升50%,7项能力超越GPT-4 Turbo|钛媒体AGI

科大讯飞在1024开发者节上宣布了讯飞星火4.0 Turbo的全新升级,该版本在七大能力上全面超越了GPT-4 Turbo,特别是在数学和代码能力上。预计到年底,讯飞星火...

全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向|钛媒体AGI

北京智源人工智能研究院(BAAI)近日发布了全球首个原生多模态世界模型Emu3,该模型采用了自回归技术路线,参数量达到8B(80亿),能够将图像、文本和视频编...

预测下个token就能通往AGI,智源Emu3有世界模型的味儿了

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这是一个基于下一个token预测的模型,能够处理文本、图像、视频三种模态数据的理解和生成,而无需...

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这是一个基于下一个token预测的模型,能够在无需扩散模型或组合方法的情况下,完成文本、图像、视...

Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3

智源研究院发布了原生多模态世界模型Emu3,该模型基于下一个token预测,无需依赖扩散模型或组合方法,能够完成文本、图像、视频三种模态数据的理解和生成。Em...
1 5 6 7 8 9 21