“多模态”的搜索结果

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
面壁小钢炮MiniCPM-V 2.6模型以其8亿参数的规模,在端侧多模态领域取得了显著的突破。该模型在单图、多图和视频理解三个方面均达到了20...
斯坦福、Salesforce等开源1万亿tokens多模态数据集
华盛顿大学、斯坦福大学和Salesforce的研究人员联合发布了一个名为MINT-1T的多模态数据集,其规模是现有开源数据集的10倍,包含约1万亿...
别只盯着ChatGPT版「Her」,在多模态AI拟人互动上,国内玩家也支棱起来了
第二届多模态情感识别挑战赛(MER24)在AI顶会IJCAI2024上成功举办,旨在推动利用文本、音视频等多模态数据进行AI情感识别的技术发展和...
哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈
具身智能技术,将智能系统与物理实体结合,使机器人能够感知环境、进行决策并执行动作。其核心在于“具身”,即通过物理形态与世界交互。...
8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功
法国非营利性AI研究机构Kyutai开发了一个名为Moshi的实时语音多模态模型,该模型具备听、说、看的能力,能够理解带有法国口音的英语。Mo...
中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑
商汤科技在世界人工智能大会上发布了国内首个流式原生多模态交互模型——日日新5.5系列中的5o。这一模型整合了文本、声音、图像和视频等多...
揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相
在2024年世界人工智能大会上,阶跃星辰公司展示了其最新的AI大模型技术,吸引了大量观众。一个特别受欢迎的展台提供了一种互动体验,观...
哈佛、麻省推出面向医学多模态助手—PathChat
哈佛医学院、麻省理工学院和俄亥俄州立大学韦克斯纳医学中心的研究人员联合开发了一款名为PathChat的多模态AI助手,专为医学领域设计。P...
多模态能力全球TOP3,来自中国从容大模型
云从科技的从容大模型在全球AI领域取得显著成绩,其在OpenCompass多模态榜单中以平均得分65.5分的成绩位列全球第三,仅次于GPT-4o和Clau...
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
张天宇在其研究中提出了一种名为视觉字幕恢复(Visual Caption Restoration, VCR)的新任务,旨在探究视觉语言模型(Vision-Language Mo...
1 2 3 4 72