图像生成

图像,绘画

拖拽P图技术又升级了:StableDrag更稳、更准,南大、腾讯联合打造

这篇文章介绍了一系列关于图像编辑的研究成果,其中包括了 DragGAN、DragDiffusion 和 StableDrag 三个项目。首先介绍了 DragGAN 项目,该项目通过拖拽鼠标实...

没等来OpenAI,等来了Open-Sora全面开源

机器之心编辑部近期报道了OpenAI Sora视频生成模型的开源进展。Sora因其出色的视频生成效果而受到全球关注。在成本降低46%的Sora训练推理复现流程发布两周后...

专访上海大学方昱春教授:数据驱动的手语识别研究,如何破解数据之困?|GAIR live

本文主要讲述了上海大学的方昱春教授如何将计算机视觉技术与手语研究相融合,开辟出一片新的研究天地。方教授的研究重点在于利用计算机视觉技术(CV)探索手...

DeepMind 最新通用游戏 AI 智能体 SIMA 来了,游戏的未来会被重新定义吗

DeepMind最近推出了一款名为SIMA(Scalable Instructable Multiworld Agent)的通用游戏AI智能体,它能够理解和执行自然语言指令,并在多个3D虚拟世界中自如...

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

这篇文章介绍了腾讯混元、清华大学和香港科技大学联合推出的新图像到视频生成模型Follow-Your-Click。这个模型可以通过点击图片中的特定区域并输入简短提示词...

何恺明刘壮新作:消除数据集偏差的十年之战

这篇文章介绍了MIT新晋副教授何恺明与刘壮合作完成的研究,针对AI发展中长期存在的数据集偏差问题展开探讨。过去十多年来,尽管业界努力构建更大、更多样化、...

突发!苹果、腾讯同日公布全新大模型研究论文,中美 AI 技术竞争加速|钛媒体AGI

苹果公司近日在人工智能领域迈出重要一步,公布了自家的多模态大模型MM1。这一模型拥有高达300亿的参数规模,在预训练指标中实现SOTA,并具备密集模型和混合...

文本生成4K超高清图像,华为等推出创新模型PixArt-Σ

是由华为诺亚方舟实验室、大连理工大学和香港大学的研究人员推出的一款文本生成4K超高清图像的模型。与上一代PixArt-α相比,在图像质量、细节、训练效率以及...

苹果终于入局大模型了:300亿参数、MoE 架构,手机要迎来全面的大变革了?

这篇文章介绍了苹果公司在多模态大模型(MLLMs)领域的研究成果,通过一篇名为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的研...
1 63 64 65 66 67 88