视频生成
视频,video
Ilya预言成真,下一个token预测直达AGI!智源首发原生多模态世界模型Emu3,不用扩散
智源研究院最近发布了一款名为Emu3的原生多模态世界模型,该模型通过预测下一个token来理解和生成文本、图像和视频三种模态数据,而无需依赖扩散模型或组合方...
上海交大、腾讯发布高效扩散模型微调方法,提升图像生成效率
近年来,扩散模型在图像、视频和3D生成等任务中发挥了重要作用,但在将预训练模型微调应用于实际业务场景时面临挑战。现有微调方法如AFT、RFT和SFT存在局限性...
智源 Emu3 证明多模态模型新范式:只需基于下一个 token 预测
智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这一模型仅通过预测下一个token,就能实现对文本、图像、视频三种模态数据的理解和生成,无需依赖...
国产3D虚拟人版《Her》「杀向」迪拜
在GITEX GLOBAL展会上,中国公司Soul展示了其在AI社交领域的最新进展。Soul的展位设有三个互动屏幕,分别用于体验与3D数字人互动、创建多语言交流的3D数字人...
视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
当前,文本生视频技术正处于快速发展阶段,其应用范围广泛,包括创意视频内容生成、游戏场景创建、动画和电影制作,甚至作为真实世界的模拟器。尽管如此,该...
OpenAI若造出AGI,就能从微软独立:股权争夺战开打,两边都找好了投行
OpenAI与微软之间的关系近期出现了紧张迹象。尽管OpenAI在科技领域炙手可热,完成了一轮66亿美元的融资,估值高达1570亿美元,但如何分配利益成为其面临的挑...
AI 教父 Yann LeCun 怒批:今天的大模型比猫还笨,光会预测文本根本没在推理!
纽约大学教授、Meta公司高级研究员、A.M. Turing奖获得者Yann LeCun对当前人工智能的发展持怀疑态度。他认为,尽管大型语言模型能够操纵语言,但它们并不聪明...
直击a16z路演!32家AI创企,看 AI+游戏的未来可能性在哪里
在旧金山SF JAZZ演出厅举行的SPEEDRUN加速器路演活动中,32个创业项目展示了他们的创新成果,其中多数项目涉及AI技术在游戏领域的应用。这些项目不仅展示了AI...
从威尔・史密斯鬼畜吃面到「Her」,这些幕后技术正在推动AI视频时代的到来
AI视频生成技术在过去一年里取得了显著进步,从威尔·史密斯的鬼畜视频到电影级别的质感,AI的表现有了质的飞跃。字节跳动发布的豆包·视频生成模型在内测中展...
王炸级3nm安卓AI芯片发布:生成视频不用联网,智能体帮你点外卖订酒店
联发科推出的天玑9400芯片,基于3nm工艺和Arm V9架构,是安卓首款3nm AI芯片,其AI能力显著提升,成为苏黎世ETHZ移动SoC AI性能榜单的首位。该芯片首次支持端...





