视觉编码 | 学习AIGC

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

DeepSeek最近发布了新模型多模态Janus-Pro-7B，并立即开源。这一新模型在GenEval和DPG-Bench基准测试中超越了DALL-E 3和Stable Diffusion。Janus-Pro-7B基于D...

AI-Agent

8个月前

智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL，这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能...

AIGC动态

11个月前

Together.ai最近开源了名为Dragonfly的大语言模型，该模型具有多分辨率视觉编码功能。Dragonfly设计了两个版本：Llama-3-8b-Dragonfly-v1和Llama-3-8b-Dragon...

AIGC动态

1年前 (2024)

GPT-4V的推出标志着多模态大模型研究的新篇章，它在多模态问答、推理和交互等领域展现了卓越的能力。然而，一些研究揭示了GPT-4V在基本能力上的不足，尤其是...

AIGC动态

1年前 (2024)