标签:多模态模型
Jeff Dean回忆谷歌趣事:吴恩达激励自己继续研究,Hinton曾是最强「实习生」
Jeff Dean,谷歌的AI领域资深专家,自1999年加入谷歌以来,一直是公司在人工智能和机器学习领域的领军人物。他参与创立了Google Brain团队,并在2021年荣获IE...
万字长文解析OpenAI o1 Self-Play RL技术路线
OpenAI最近推出的Self-Play RL新模型o1在数理推理领域取得了显著成绩,并提出了train-time compute和test-time compute两个新的RL Scaling Law。o1是一个多模...
阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!
阿里巴巴集团开源了其最新研发的视觉多模态模型Qwen2-VL,这一模型在多项性能指标上超越了OpenAI的GPT-4o和Anthropic的Claude3.5-Sonnet等知名闭源模型,成为...
MUMU:用文本、图像引导,多模态图像生成模型
AIGC领域的专业社区专注于微软、OpenAI、百度文心一言、讯飞星火等大型语言模型(LLM)的发展和应用落地,致力于LLM的市场研究和AIGC开发者生态建设。在图像...
统一transformer与diffusion!Meta融合新方法剑指下一代多模态王者
Transfusion是一种创新的多模态生成模型,由Meta和Waymo等机构的研究者开发,旨在通过单一模型同时处理离散和连续数据。该模型通过结合语言模型和扩散模型的...
微软「小而美」系列三连发!视觉小钢炮PK GPT-4o,MoE新秀力压Llama 3.1
微软发布了Phi 3.5系列的三款新模型,分别为Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct,这些模型在Hugging Face平台上可供下载...
谷歌通过数据增强、对比调优,减少多模态模型幻觉
在人工智能生成内容(AIGC)领域,多模态大语言模型(LLM)的发展和应用落地受到广泛关注。然而,这些模型在生成和识别内容时容易出现错误描述,即“幻觉”现象...
超9000颗星,优于GPT-4V!国内开源多模态大模型
国内开源社区OpenBMB推出了一款新型的多模态大模型——MiniCPM-V 2.6,该模型拥有80亿参数,在图像和视频理解方面表现出色,超越了包括GPT-4V在内的多个知名模...
最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了
在最新的中文多模态大模型测评基准SuperCLUE-V中,腾讯的hunyuan-vision和上海AI Lab的InternVL2-40B分别成为闭源和开源界的领跑者,表现出色,甚至在某些方...
超强实体ChatGPT机器人:语音推理、视觉识别,“终结者”来啦!
Figure.AI联合创始人Brett Adcock发布了新一代实体机器人Figure 02,该机器人在前一代01的基础上进行了软硬件的大量更新。Figure 02搭载了6个RGB摄像头、Open...