视觉语言 | 学习AIGC

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

近期基于扩散模型的视觉 - 语言模型 LaViDa 诞生，继承了扩散语言模型高速且可控的优点，实验表现出色。当前流行的 VLM 多基于自回归（AR）的大型语言模型（L...

AIGC动态

3个月前

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

近年来，视觉语言模型（VLMs）在多模态AI领域展现了重要的研究价值和应用潜力，但其安全性问题也逐渐受到关注。传统对抗攻击方法依赖预设标签，难以适应大规...

AIGC动态

4个月前

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

近期AI社区热议的Scaling Law是否撞墙问题中，一个论点是AI即将耗尽现有高质量数据。对此，卡内基梅隆大学和Google DeepMind的研究发现，利用低质量数据和反...

AIGC动态

8个月前

控制电脑手机的智能体人人都能造，微软开源OmniParser

近期，大模型控制计算机的研究和应用领域呈现出蓬勃的发展态势。Anthropic公司推出了能够控制计算机的新版Claude 3.5 Sonnet，荣耀MagicOS 9.0推出了全局智能...

AIGC动态

10个月前

Ilya预言成真，下一个token预测直达AGI！智源首发原生多模态世界模型Emu3，不用扩散

智源研究院最近发布了一款名为Emu3的原生多模态世界模型，该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据，而无需依赖扩散模型或组合方...

AIGC动态

10个月前

OpenAI大模型上身机器人，原速演示炸场！

这篇文章介绍了一款名为Figure 01的机器人，它是由OpenAI大模型加持的，具备听、说、动作灵活等功能。机器人可以描述眼前的场景并做出相应反应，比如听到人类...

AIGC动态

1年前 (2024)

解读OpenAI Sora文生视频技术原理

OpenAI发布的Sora视频生成模型在AI领域引起了巨大轰动，被视为继ChatGPT之后又一次重要的技术突破。本文详细总结了Sora的关键技术和潜在应用，并与Google的Lu...

AIGC动态

2年前 (2024)

标签：视觉语言

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

控制电脑手机的智能体人人都能造，微软开源OmniParser

Ilya预言成真，下一个token预测直达AGI！智源首发原生多模态世界模型Emu3，不用扩散

OpenAI大模型上身机器人，原速演示炸场！

解读OpenAI Sora文生视频技术原理

热门网址

标签：视觉语言

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

控制电脑手机的智能体人人都能造，微软开源OmniParser

Ilya预言成真，下一个token预测直达AGI！智源首发原生多模态世界模型Emu3，不用扩散

OpenAI大模型上身机器人，原速演示炸场！

解读OpenAI Sora文生视频技术原理

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址