图像生成

图像,绘画

与Sora一样能生成视频、图像,还能一次解读100万数据!

本文介绍了加州大学伯克利分校研究人员开源的大世界模型(LWM),这是一种多模态自回归模型,具备文本、音频、图像和视频的生成与理解能力。LWM能够一次性精...

12家创业公司+4家大厂全景图:谁会成为中国版Sora?

摘要:随着ChatGPT的火爆,AI领域迎来了新的发展机遇。Sora的出现预示着AI视频领域可能迎来新一轮的竞争。DiT论文作者谢赛宁强调人才、数据和算力的重要性。...

Sora无法替代人类!亚马逊工程师断言:实际工作冲突不可能靠AI解决

摘要:亚马逊工程师Cameron Gould对OpenAI新发布的视频AI工具Sora进行了分析。他认为,尽管生成式AI在创意内容生成方面表现出色,但它并不会导致人类失业。Go...

Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了

Mamba,这个被寄予厚望的Transformer挑战者,尽管在学术界引起了广泛关注,但最终还是被ICLR会议拒绝。尽管如此,Mamba的热度并未受到影响,一篇关于它的最新...

Sora时代,我们该如何关注新应用?一切尽在中国AIGC产业峰会

2024年中国AIGC产业峰会 即将在北京举行,主题为“你好,新应用”,旨在探讨生成式AI的最新发展和应用。大模型技术正向多模态发展,从文本扩展到图像、语音、视...

谷歌的AI要是实在不行,就回炉重做吧

文章主要讨论了谷歌在人工智能领域的最新发展和挑战。作者认为,尽管谷歌在AI领域取得了一定的进展,但在某些方面仍存在一些问题。首先,谷歌推出了新的开源...

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

摘要:OpenAI Sora的发布标志着视频生成领域的重大突破。Sora基于Diffusion Transformer架构,与主流的2D Stable Diffusion方法不同。这项工作由中国人民大学...

谷歌Gemini生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道

谷歌的Gemini AI系统在推出后不久就遭遇了问题。这个被谷歌称为“最大、最有能力和最通用”的AI系统,旨在提供对“最强模型系列”的访问,但在人物图像生成方面出...

刚刚,谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界

摘要:谷歌DeepMind发布了一种名为Genie的生成式交互环境(Generative Interactive Environments),这是一个拥有110亿参数的基础世界模型,能够通过单张图像...

解读OpenAI Sora文生视频技术原理

OpenAI发布的Sora视频生成模型在AI领域引起了巨大轰动,被视为继ChatGPT之后又一次重要的技术突破。本文详细总结了Sora的关键技术和潜在应用,并与Google的Lu...
1 59 60 61 62 63 72