英伟达市值蒸发近6000亿美元,而DeepSeek刚刚又开源新模型
文章摘要
【关 键 词】 AI芯片、开源模型、视觉任务、多模态、市场焦虑
随着低成本推理模型DeepSeek-R1的热潮,美股市场遭遇重挫,英伟达和Broadcom等依赖AI的芯片制造商市值大幅下跌。中国人工智能实验室DeepSeek发布的开源大语言模型DeepSeek-V3训练成本仅为558万美元,使用英伟达低能力版芯片H800,给科技巨头带来巨大竞争压力。
DeepSeek继续开源,发布了视觉模型Janus-Pro,是去年10月发布的Janus的升级版,在多模态理解和文生图指令遵从能力上显著提升,超越了DALL-E 3和Stable Diffusion。Janus-Pro基于Janus开发,实现了训练策略优化、训练数据扩展和扩展到更大模型三大改进。DeepSeek还发布了多模态理解模型JanusFlow-1.3B,将图像理解和生成统一在一个模型中。
Janus-Pro在效率和多功能性方面经过精心设计,能够在一系列视觉任务中表现出色,从生成逼真的图像到执行复杂的视觉推理任务。Janus-Pro架构将多模态理解与生成的视觉编码解耦,应用独立的编码方法将原始输入转换为特征,由统一的自回归Transformer处理。Janus-Pro训练策略进行了优化,数据扩展涵盖了多模态理解和视觉生成两个方面,模型扩展至7B。
JanusFlow引入了极简主义架构,将自回归语言模型与校正流相结合,能够在大型语言模型框架内直接训练。JanusFlow在不同领域实现了与专门模型相当或更优异的性能,同时在标准基准上明显优于现有的统一方法。
Janus Pro 7B的发布引发了市场焦虑与竞争压力,DeepSeek被视为能够颠覆AI既定秩序的创新者。Janus Pro 7B的开源性质会加剧这种颠覆,让人们更容易使用高级AI,对AI巨头构成直接威胁。当前的股市抛售情况表明投资者对此表示怀疑。
原文和模型
【原文链接】 阅读原文 [ 2554字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★