“多模态”的搜索结果

在RTE2024,窥见实时AGI的未来
AI技术的进步正在改变人机交互的方式,特别是在实时交互(RTE)领域。OpenAI的GPT-4o模型通过Realtime API为开发者提供了低延迟、自然流...
小红书大模型团队的探索与实践:从 0 到 1 构建自研 RLHF 框架
在人工智能技术快速发展的背景下,多模态大语言模型(MLLM)因其在图文理解、创作、知识推理及指令遵循方面的能力,成为数字化转型的重...
新扩散模型OmniGen一统图像生成,架构还高度简化、易用
智源近日推出了OmniGen,这是一种新的扩散模型架构,旨在统一图像生成的多模态模型。OmniGen以其统一性、简单性和知识迁移能力为特点,...
鹅厂版AI笔记悄悄上线,微信公众号优质内容秒变专属知识库,实测在此
鹅厂新推出的AI助手ima copilot以其独特的功能在公众号领域引起关注。该工具不仅能够一键将微信公众号的优质内容整合进个人知识库,还能...
OpenAI董事会主席新AI Agent公司获12亿元,估值320亿
Sierra AI,由OpenAI董事会主席Bret Taylor和前谷歌AI实验室负责人Clay Bavor共同创立,已完成1.75亿美元融资,公司估值达到45亿美元。...
推出 AI 耳机,字节真正的野心是什么?
字节跳动豆包推出了AI智能体耳机Ola Friend,这款开放式耳机以其轻巧设计和与豆包大模型及App的深度结合而引人注目。用户通过简单的语音...
让 AI 从「语言智能」进化到「现实智能」,这家手机公司想得最透彻
荣耀MagicOS 9.0的发布标志着智能手机向真正“有灵魂”的全场景AI操作系统的转变。该系统通过大模型技术,增强了AI的主动感知能力,使其能...
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录
智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL,这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL...
一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源
智源研究院联合多所高校发布了超长视频理解大模型Video-XL,该模型利用语言模型的原生能力对长视觉序列进行压缩,不仅保留了短视频理解...
CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡
在CNCC 2024上,智谱展示了其最新的多模态AI技术成果,其中包括AutoGLM,一个能够模拟用户操作手机和浏览器的智能体,以及GLM-4-Voice情...
1 14 15 16 17 18 85