视频生成
视频,video
趣丸科技联合港中大(深圳)开源首个语音大模型
趣丸科技与香港中文大学(深圳)联合研发的语音大模型“MaskGCT”已在Amphion系统中开源,供全球用户使用。该模型采用掩码生成模型与语音表征解耦编码的创新范...
讯飞版《Her》长脸了!多模态虚拟人表情动作超逼真,一张图一句话就能DIY自己
科大讯飞近期推出了讯飞星火4.0 Turbo,标志着其大模型的又一次重大升级。这一版本在数学、代码和特定领域长文本能力等七大核心能力上全面超越了GPT-4 Turbo...
字节AI为何凶猛:重启App工厂,争抢“豆包”,连模型也要赛马
2023年8月18日,字节跳动将其AI对话产品Grace更名为“豆包”,这一变化标志着字节跳动在AI领域的战略转型。尽管起步较晚,字节跳动迅速调整战略,由张一鸣提出“...
刚刚,OpenAI发布sCM提升50倍效率,扩散模型重大技术突破!
OpenAI最近发布了一种名为sCM的新型扩散模型方法,该方法在生成高质量图片和3D模型方面表现出色,实现了50倍的时钟加速,尤其在高分辨率任务上效果显著。sCM...
Claude接管人类电脑12小时:学会摸鱼,敲着敲着代码看风景去了
Anthropic公司开发的新版AI模型Claude 3.5 Sonnet展示了其在计算机操作和执行任务方面的能力,标志着AI技术的竞赛已经从对话和生成能力转向了执行和操作。该...
不怪奥特曼慌!最大对手Anthropic抢先让AI 接管人类电脑,网友怒赞并喊话OpenAI:看看人家
AI初创公司Anthropic推出了一项名为“计算机使用”的新功能,使大型AI模型能够理解并交互桌面应用程序,执行如模拟按键、点击按钮、鼠标手势和输入文本等操作。...
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
纽约大学谢赛宁团队的最新研究强调了在视觉领域生成模型中表征学习的重要性。该团队通过引入一种新的正则化方法REPA(REPresentation Alignment),显著提升...
全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向|钛媒体AGI
北京智源人工智能研究院(BAAI)近日发布了全球首个原生多模态世界模型Emu3,该模型采用了自回归技术路线,参数量达到8B(80亿),能够将图像、文本和视频编...
骁龙8至尊版登场:CPU牙膏挤爆,AI生成速度创纪录,奥特曼也来助阵
高通在2024骁龙峰会上发布了全新的骁龙8至尊版移动平台,这是一款采用台积电3nm工艺制造的系统级芯片,标志着高通在移动端芯片领域的一次重大突破。该平台集...
预测下个token就能通往AGI,智源Emu3有世界模型的味儿了
智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这是一个基于下一个token预测的模型,能够处理文本、图像、视频三种模态数据的理解和生成,而无需...