标签:多模态

在RTE2024,窥见实时AGI的未来

AI技术的进步正在改变人机交互的方式,特别是在实时交互(RTE)领域。OpenAI的GPT-4o模型通过Realtime API为开发者提供了低延迟、自然流畅的对话能力,使得智...

小红书大模型团队的探索与实践:从 0 到 1 构建自研 RLHF 框架

在人工智能技术快速发展的背景下,多模态大语言模型(MLLM)因其在图文理解、创作、知识推理及指令遵循方面的能力,成为数字化转型的重要推动力。小红书大模...

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

智源近日推出了OmniGen,这是一种新的扩散模型架构,旨在统一图像生成的多模态模型。OmniGen以其统一性、简单性和知识迁移能力为特点,支持多种图像生成任务...

一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

智源研究院联合多所高校发布了超长视频理解大模型Video-XL,该模型利用语言模型的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,还在长视频理...

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

智谱清言近期宣布全量上线「情感语音通话」功能,为用户带来端到端的情感语音体验。该功能在响应速度、情绪感知、语音表达、多语言支持等方面实现突破,提供...

7天开发一个AI Agent应用!秘密武器:一体化数据库

OceanBase最近推出了4.3.3版本,这是其首个面向实时分析处理场景的GA版本。该版本通过增强多模态数据处理能力和推出全新的向量检索功能,实现了SQL+AI一体化...

讯飞星火爆震撼大招,七项第一11个首发!年度最逼真虚拟人萌翻全场,多模态抢先GPT-4o

在2024科大讯飞全球1024开发者节上,科大讯飞发布了讯飞星火4.0 Turbo,这是首个基于全国产算力训练的全面开放大模型。该模型在9项国际主流测试集中均取得第...

安卓版下载量超2亿!科大讯飞的星火4.0 Turbo性能效率提升50%,7项能力超越GPT-4 Turbo|钛媒体AGI

科大讯飞在1024开发者节上宣布了讯飞星火4.0 Turbo的全新升级,该版本在七大能力上全面超越了GPT-4 Turbo,特别是在数学和代码能力上。预计到年底,讯飞星火...

全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向|钛媒体AGI

北京智源人工智能研究院(BAAI)近日发布了全球首个原生多模态世界模型Emu3,该模型采用了自回归技术路线,参数量达到8B(80亿),能够将图像、文本和视频编...

预测下个token就能通往AGI,智源Emu3有世界模型的味儿了

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这是一个基于下一个token预测的模型,能够处理文本、图像、视频三种模态数据的理解和生成,而无需...
1 2 3 4 5 17