“多模态”的搜索结果

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
新智元报道了多模态大型语言模型(MLLMs)在多学科多模态理解和推理(MMMU)基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提...
斯坦福开源睡眠多模态大模型–SleepFM,
斯坦福大学研究人员开发了一款名为SleepFM的多模态大模型,专门针对医疗领域中的睡眠监测和分析。该模型能够自动识别并分类睡眠过程中的...
视觉模型底座超越OpenAI,格灵深瞳开启多模态落地的Scaling Law
在大模型时代,如何将这些技术落地并实现产业应用成为了业界关注的焦点。中国公司格灵深瞳在这一领域取得了显著成就,其多模态大模型在...
MUMU:用文本、图像引导,多模态图像生成模型
AIGC领域的专业社区专注于微软、OpenAI、百度文心一言、讯飞星火等大型语言模型(LLM)的发展和应用落地,致力于LLM的市场研究和AIGC开...
统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
Transfusion是一种创新的多模态生成模型,由Meta和Waymo等机构的研究者开发,旨在通过单一模型同时处理离散和连续数据。该模型通过结合...
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
Meta公司最新发布的Transfusion模型,成功实现了语言模型和图像生成的统一,为多模态AI模型的发展迈出了重要一步。Transfusion模型融合...
谷歌通过数据增强、对比调优,减少多模态模型幻觉
在人工智能生成内容(AIGC)领域,多模态大语言模型(LLM)的发展和应用落地受到广泛关注。然而,这些模型在生成和识别内容时容易出现错...
超9000颗星,优于GPT-4V!国内开源多模态大模型
国内开源社区OpenBMB推出了一款新型的多模态大模型——MiniCPM-V 2.6,该模型拥有80亿参数,在图像和视频理解方面表现出色,超越了包括GPT...
最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了
在最新的中文多模态大模型测评基准SuperCLUE-V中,腾讯的hunyuan-vision和上海AI Lab的InternVL2-40B分别成为闭源和开源界的领跑者,表...
实时视频理解首次上端!面壁小钢炮2.6 携单图、多图、视频理解3 SOTA,全面对标 GPT-4V 最强多模态
面壁智能于8月6日推出了MiniCPM-V 2.6模型,这是一款具有8B参数的端侧多模态模型,它首次集成了实时视频理解、多图联合理解等能力。Mini...
1 2 3 72