“零样本”的搜索结果

字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024
文章介绍了字节跳动提出的新基础模型ViTamin,专为视觉语言时代设计。ViTamin在ImageNet零样本准确率上比ViT提高了2.0%,在多个基准任务...
Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式
这篇文章介绍了生成式AI领域中的两个主导模型:自回归模型和扩散模型。自回归模型专注于处理离散数据,如文本,通过预测下一个token来生...
北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个token
这篇文章介绍了北大和字节跳动合作开发的新方法——Visual Autoregressive Modeling(VAR),旨在改进图像生成的质量和效率。VAR采用了预...
GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式
  文章摘要 【关 键 词】 VAR、图像生成、自回归模型、扩散模型、Scaling Laws 机器之心最近发布了一篇关于新一代视觉生成范...
OpenAI Sora核心作者:我们拥有的数据量足以实现AGI
  文章摘要 【关 键 词】 OpenAI、Sora、视频生成、AGI、技术细节 前不久,OpenAI CEO Sam Altman 的一句话引发了业界对电影...
120亿Stable LM 2上线即开源!2万亿token训练,碾压Llama 2 70B
Stability AI最近推出了Stable LM 2 12B模型,这是其新模型系列的一个重要升级。该模型基于七种语言的2万亿Token进行训练,拥有120亿参...
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
最近,多模态大模型(LMM)在视觉-语言任务上取得了显著的进展,尤其是在视觉场景下的应用。然而,将LMM应用于计算机视觉任务,特别是图...
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解技术旨在准确把握视频中的时空信息,但面临着短视频片段的时空冗余和复杂时空依赖关系的双重挑战。传统的三维卷积神经网络(CNN...
通用图大模型HiGPT:一己之力建模任何图结构关系!来自港大数据智能实验室&百度
文章介绍了香港大学数据智能实验室最新推出的图结构大模型HiGPT,该模型是由GraphGPT的原班人马打造而成。GraphGPT是将图数据与大模型结...
微软NaturalSpeech语音合成推出第三代,网友惊呼:超自然!实至名归
微软NaturalSpeech项目介绍微软NaturalSpeech项目介绍本文介绍了微软在文本到语音合成(TTS)领域的研究项目NaturalSpeech,该项目旨在...
1 2 3 4 5