标签:多模态模型
国产3D虚拟人版《Her》「杀向」迪拜
在GITEX GLOBAL展会上,中国公司Soul展示了其在AI社交领域的最新进展。Soul的展位设有三个互动屏幕,分别用于体验与3D数字人互动、创建多语言交流的3D数字人...
Boson李沐、Luma 宋佳铭:AI科学家能不能理解普通人对AI的需求,怎么理解?
在2024年的华源年会上,一场关于人工智能技术如何进入消费者市场的讨论吸引了众多关注。硅星人创始人骆轶航与BosonAI联合创始人李沐、Luma AI首席科学家宋佳...
全球首个人机交互端到端多模态大模型发布,RockAI CEO刘凡平:训推同步是自主学习的最佳方式|钛媒体AGI
岩芯数智RockAI在上海发布了其最新升级的Yan 1.3大模型,这是全球首个端到端的多模态大模型,能够处理图文及语音等多模态信息,并适用于无人机、机器人、PC、...
Jeff Dean回忆谷歌趣事:吴恩达激励自己继续研究,Hinton曾是最强「实习生」
Jeff Dean,谷歌的AI领域资深专家,自1999年加入谷歌以来,一直是公司在人工智能和机器学习领域的领军人物。他参与创立了Google Brain团队,并在2021年荣获IE...
万字长文解析OpenAI o1 Self-Play RL技术路线
OpenAI最近推出的Self-Play RL新模型o1在数理推理领域取得了显著成绩,并提出了train-time compute和test-time compute两个新的RL Scaling Law。o1是一个多模...
阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!
阿里巴巴集团开源了其最新研发的视觉多模态模型Qwen2-VL,这一模型在多项性能指标上超越了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为...
MUMU:用文本、图像引导,多模态图像生成模型
AIGC领域的专业社区专注于微软、OpenAI、百度文心一言、讯飞星火等大型语言模型(LLM)的发展和应用落地,致力于LLM的市场研究和AIGC开发者生态建设。在图像...
统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
Transfusion是一种创新的多模态生成模型,由Meta和Waymo等机构的研究者开发,旨在通过单一模型同时处理离散和连续数据。该模型通过结合语言模型和扩散模型的...
微软「小而美」系列三连发!视觉小钢炮PK GPT-4o,MoE新秀力压Llama 3.1
微软发布了Phi 3.5系列的三款新模型,分别为Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct,这些模型在Hugging Face平台上可供下载...
谷歌通过数据增强、对比调优,减少多模态模型幻觉
在人工智能生成内容(AIGC)领域,多模态大语言模型(LLM)的发展和应用落地受到广泛关注。然而,这些模型在生成和识别内容时容易出现错误描述,即“幻觉”现象...