“扩散模型”的搜索结果

仅听3秒,AI零样本克隆人声达到人类水平,情绪语调随意改
微软联合中国科技大学、香港中文大学(深圳)和浙江大学等机构推出的NaturalSpeech 3系统,实现了零样本的人类水平语音合成。该系统采用...
GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式
  文章摘要 【关 键 词】 VAR、图像生成、自回归模型、扩散模型、Scaling Laws 机器之心最近发布了一篇关于新一代视觉生成范...
CVPR 2024丨文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF
美图影像研究院(MT Lab)联合中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了一种名为CustomNeRF的3D场景编辑方法。...
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
近日,香港中文大学与商汤科技联合实验室的研究者们提出了一种名为FouriScale的方法,旨在改善预训练扩散模型在生成高分辨率图像时的性...
免费AI“神器”系列第11弹:苹果版ChatGPT超越GPT-4;腾讯版Sora已获3000星|钛媒体AGI
生成式人工智能(AIGC)领域最近推出了多款新应用,钛媒体AGI整理了五款免费AI“神器”,每款都在其领域内展现了创新和潜力。苹果ReALM:...
攻陷短视频后,Sora将需要72万块H100 GPU
  文章摘要 【关 键 词】 Sora模型、视频生成、扩散模型、计算成本、推理计算 以下是带有HTML标记的文本,其中重点词语和句子...
CVPR 2024满分论文|英伟达开源大模型FoundationPose称霸BOP排行榜
FoundationPose模型是一个用于6D物体姿态估计和跟踪的统一大模型,它能够在基于模型和无模型的设置中对新颖物体进行姿态估计和跟踪。该...
李飞飞主讲,斯坦福2024 CS231n开课,依旧座无虚席
李飞飞教授的计算机视觉课程CS231n在斯坦福大学再次开课,迎来了第九个年头。这门课程自2015年以来已成为计算机视觉专业学生的必修课,...
​Stability AI发布table Audio 2.0,可生成3分钟44.1kHz立体声音乐
Stability AI 最近推出了 Stable Audio 2.0,这是一款在 AI 音频生成领域具有划时代意义的产品。Stable Audio 2.0 在前一版本的基础上进...
CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise
何盛烽团队与华南师范大学合作,在CVPR 2024上发表了一项创新的研究成果《Drag Your Noise: Interactive Point-based Editing via Diffu...
1 7 8 9 10 11 16