图像生成

图像,绘画

千呼万唤的可灵网页版来了!基础模型重磅升级,新功能“炸场”WAIC

在世界人工智能大会上,快手公司展示了其最新的人工智能视频生成技术——可灵,并发布了该技术的一系列更新。可灵是全球首个用户可用的真实影像级视频生成大模...

达摩院发布一站式AI视频创作平台”寻光”,打造全新AI工作流

今年,AI视频生成技术迎来了爆发式增长,以Sora为代表的算法模型和产品应用不断涌现,短时间内出现了几十种视频生成工具。AI视频创作方式逐渐流行,但也带来...

苹果开源视觉模型界的“瑞士军刀”,能执行数十种任务

苹果和瑞士洛桑联邦理工学院的研究人员共同开发了4M-21,一个大规模多模态视觉模型,并于近日开源。该模型以其30亿参数量却能提供包括图像分类、目标检测、语...

更美图像生成、直出分钟级视频,国产自研DiT架构的越级之旅

2024年,AIGC领域特别是文生视频赛道呈现出显著的发展趋势,其中智象未来(HiDream.ai)作为国内专注于构建视觉多模态基础模型及应用的生成式AI初创公司,以...

好消息!Stable Diffusion 3允许商业化,很快开源更大版本模型

Stability AI在7月6日凌晨宣布修改其社区许可协议,允许其最新发布的文生图模型Stable Diffusion 3 Medium(SD3-M)进行商业化使用。根据新协议,企业和个人...

AI视频创作一条龙!达摩院“寻光”平台炸场WAIC,突破可控编辑难题

视频创作在AIGC时代迎来了全新的变革。通过AI技术,视频创作变得更加简单和高效。例如,用户可以轻松地将目标对象从视频中分离出来,并嵌入不同的背景视频中...

8 人团队的开源多模态:Moshi,效果堪比 GPT-4o,合成数据立功

法国非营利性AI研究机构Kyutai开发了一个名为Moshi的实时语音多模态模型,该模型具备听、说、看的能力,能够理解带有法国口音的英语。Moshi可以流畅地进行日...

中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑

商汤科技在世界人工智能大会上发布了国内首个流式原生多模态交互模型——日日新5.5系列中的5o。这一模型整合了文本、声音、图像和视频等多种模态,能够实现实时...

国产动漫视频AI火了!二次元老婆随意捏,哥特、梦幻、机甲一键get

新智元报道了AI视频生成技术在二次元领域的新突破,特别是一款名为YoYo的创作网站,为动漫爱好者提供了一个简单易用的平台。用户通过文字提示或上传图片,即...

仅需1分钟,文本生成高质量3D模型—Meta 3D-Gen

Meta公司发布了一款名为Meta 3D-Gen的创新3D模型生成工具,它能够快速地将文本描述转化为高分辨率的3D模型。这项技术在游戏开发、电影制作、虚拟现实和建筑设...
1 80 81 82 83 84 139