多模态模型 | 第 4 页

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

Transfusion是一种创新的多模态生成模型，由Meta和Waymo等机构的研究者开发，旨在通过单一模型同时处理离散和连续数据。该模型通过结合语言模型和扩散模型的...

AIGC动态

1年前 (2024)

微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

微软发布了Phi 3.5系列的三款新模型，分别为Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct，这些模型在Hugging Face平台上可供下载...

AIGC动态

1年前 (2024)

谷歌通过数据增强、对比调优，减少多模态模型幻觉

在人工智能生成内容（AIGC）领域，多模态大语言模型（LLM）的发展和应用落地受到广泛关注。然而，这些模型在生成和识别内容时容易出现错误描述，即“幻觉”现象...

AIGC动态

1年前 (2024)

超9000颗星，优于GPT-4V！国内开源多模态大模型

国内开源社区OpenBMB推出了一款新型的多模态大模型——MiniCPM-V 2.6，该模型拥有80亿参数，在图像和视频理解方面表现出色，超越了包括GPT-4V在内的多个知名模...

AIGC动态

1年前 (2024)

最强国产多模态刚刚易主！腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了

在最新的中文多模态大模型测评基准SuperCLUE-V中，腾讯的hunyuan-vision和上海AI Lab的InternVL2-40B分别成为闭源和开源界的领跑者，表现出色，甚至在某些方...

AIGC动态

1年前 (2024)

超强实体ChatGPT机器人：语音推理、视觉识别，“终结者”来啦！

Figure.AI联合创始人Brett Adcock发布了新一代实体机器人Figure 02，该机器人在前一代01的基础上进行了软硬件的大量更新。Figure 02搭载了6个RGB摄像头、Open...

AIGC动态

1年前 (2024)

8 人团队的开源多模态：Moshi，效果堪比 GPT-4o，合成数据立功

法国非营利性AI研究机构Kyutai开发了一个名为Moshi的实时语音多模态模型，该模型具备听、说、看的能力，能够理解带有法国口音的英语。Moshi可以流畅地进行日...

AIGC动态

1年前 (2024)

现场Live震撼！OmAgent框架强势开源！行业应用已全面开花

联汇科技作为大模型行业的领军企业，其发展历程与自动驾驶技术的演变颇为相似，均经历了从概念到现实的转变，并在技术产品创新和用户体验上不断取得突破。公...

AI-Agent

1年前 (2024)

Sora负责人与谢赛宁「隔空对话」，LLM先锋集结中国最硬核AI内行盛会！智源大模型全家桶亮相

2024年的智源大会展示了人工智能领域的最新进展和学术成果，其中最引人注目的是智源研究院和中国电信人工智能研究院联合研发的全球首个低碳单体稠密万亿参数...

AIGC动态

1年前 (2024)

斯坦福AI团队“套壳”清华系开源大模型被实锤！被揭穿后全网删库跑路

斯坦福团队在Medium发布的文章中宣称，他们训练出了一个小型多模态模型Llama 3-V，其性能超越了GPT-4V、Gemini Ultra和Claude Opus等模型，且尺寸只有GPT4-V...

AIGC动态

1年前 (2024)

标签：多模态模型

统一transformer与diffusion！Meta融合新方法剑指下一代多模态王者

微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

谷歌通过数据增强、对比调优，减少多模态模型幻觉

超9000颗星，优于GPT-4V！国内开源多模态大模型

最强国产多模态刚刚易主！腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了

超强实体ChatGPT机器人：语音推理、视觉识别，“终结者”来啦！

8 人团队的开源多模态：Moshi，效果堪比 GPT-4o，合成数据立功

现场Live震撼！OmAgent框架强势开源！行业应用已全面开花

Sora负责人与谢赛宁「隔空对话」，LLM先锋集结中国最硬核AI内行盛会！智源大模型全家桶亮相

斯坦福AI团队“套壳”清华系开源大模型被实锤！被揭穿后全网删库跑路

热门网址

标签：多模态模型

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址