标签:视觉语言

控制电脑手机的智能体人人都能造,微软开源OmniParser

近期,大模型控制计算机的研究和应用领域呈现出蓬勃的发展态势。Anthropic公司推出了能够控制计算机的新版Claude 3.5 Sonnet,荣耀MagicOS 9.0推出了全局智能...

Ilya预言成真,下一个token预测直达AGI!智源首发原生多模态世界模型Emu3,不用扩散

智源研究院最近发布了一款名为Emu3的原生多模态世界模型,该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据,而无需依赖扩散模型或组合方...

OpenAI大模型上身机器人,原速演示炸场!

这篇文章介绍了一款名为Figure 01的机器人,它是由OpenAI大模型加持的,具备听、说、动作灵活等功能。机器人可以描述眼前的场景并做出相应反应,比如听到人类...

解读OpenAI Sora文生视频技术原理

OpenAI发布的Sora视频生成模型在AI领域引起了巨大轰动,被视为继ChatGPT之后又一次重要的技术突破。本文详细总结了Sora的关键技术和潜在应用,并与Google的Lu...