标签:文本图像

Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务

苹果公司的研究团队最近发布了一项关于视频生成大模型的新研究,名为STIV(Scalable Text and Image Conditioned Video Generation)。这项研究提出了一个具...

Ilya预言成真,下一个token预测直达AGI!智源首发原生多模态世界模型Emu3,不用扩散

智源研究院最近发布了一款名为Emu3的原生多模态世界模型,该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据,而无需依赖扩散模型或组合方...

视频生成赛道再添「猛将」,智谱清影正式上线

智谱公司在视频生成领域取得了显著进展,成为国内估值超过200亿的大模型公司中首家发布视频生成成果的团队。该公司推出的AI视频生成功能“清影”(Ying)正式上...