视频生成

视频,video

攻陷短视频后,Sora将需要72万块H100 GPU

  文章摘要 【关 键 词】 Sora模型、视频生成、扩散模型、计算成本、推理计算 以下是带有HTML标记的文本,其中重点词语和句子已用HTML元素标记出来...

CVPR 2024满分论文|英伟达开源大模型FoundationPose称霸BOP排行榜

FoundationPose模型是一个用于6D物体姿态估计和跟踪的统一大模型,它能够在基于模型和无模型的设置中对新颖物体进行姿态估计和跟踪。该模型通过使用RGBD图像...

AI无人商店背后,是上千个印度人通过摄像头看美国人买西蓝花?

亚马逊的“Just Walk Out”技术是一项旨在简化购物体验的创新,允许顾客在无需排队结账的情况下拿起商品即可离开商店。这项技术通过结合计算机视觉、目标识别、...

今日AGI要闻:受益于AI,全球前10大富豪身价年内增长3.6万亿;Sora或需72万块英伟达最新芯片

近日,通用人工智能(AGI)领域的发展引起了广泛关注。OpenAI公司向部分测试开发者发送了“红队网络”专家邀请邮件,寻求外部社区成员的支持以评估公司的前沿模...

李飞飞主讲,斯坦福2024 CS231n开课,依旧座无虚席

李飞飞教授的计算机视觉课程CS231n在斯坦福大学再次开课,迎来了第九个年头。这门课程自2015年以来已成为计算机视觉专业学生的必修课,并见证了人工智能和计...

阿里董事长蔡崇信:中国 AI 技术落后美国OpenAI两年|钛媒体AGI

4月3日,挪威主权财富基金发布了一段专访视频,采访对象是阿里巴巴联合创始人、董事长蔡崇信。在这次专访中,蔡崇信全面讨论了阿里集团的当前状况、人工智能...

马斯克放弃自动驾驶?特斯拉CV负责人被曝离职,马斯克急澄清

【新智元导读】特斯拉的计算机视觉负责人Ethan Knight最近离职,加入了马斯克的另一家公司xAI。这一事件引发了外界对特斯拉自动驾驶技术发展的担忧,但马斯克...

首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作

UC Berkeley的研究人员最近开源了首个“世界模型”(LargeWorldModel,简称LWM),这是一个在多模态任务上表现出色的模型,特别是在长视频理解方面,其性能甚至...

ChatGPT现在能帮你P图了,只需简单说几个字

OpenAI的DALL-E 3在AI图像编辑领域迈出了重要一步,通过与ChatGPT的集成,用户现在可以在网页、iOS和安卓版的ChatGPT中使用DALL-E的强大图像编辑功能。这项更...

CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法

物体姿态估计是机器人操纵和混合现实等应用领域的关键技术。传统的实例级方法依赖于纹理CAD模型生成训练数据,但无法适用于未见过的新物体;而类别级方法虽然...
1 110 111 112 113 114 156