图像生成

图像,绘画

谢赛宁团队用RAE实现从8%到84%的飞跃,宣告VAE时代结束

谢赛宁团队提出的表征自编码器(RAE)架构在图像生成领域取得重大突破,将ImageNet图像生成的FID指标提升至1.13,标志着传统变分自编码器(VAE)时代的终结。...

程序员用AI写歌还赚钱了!用AI 批量生产“爆款”,这个副业“杀疯了”?

AI音乐创作正以前所未有的速度改变着艺术生产和消费的格局。2024年多个案例显示,由AI生成的音乐作品已具备市场竞争力:原神玩家用Suno制作的歌曲获得640万播...

黑洞物理学家加盟OpenAI,GPT-5 Pro半小时重现人类数天推导

理论物理学家Alex Lupsasca加入OpenAI for Science团队,标志着人工智能与前沿科学研究的深度融合迈入新阶段。作为物理学新视野奖获得者,Lupsasca的加盟源于...

打败 Qwen2.5-VL,完全开源可复现LLaVA-OneVision-1.5 的多模态模型

LLaVA(大型语言与视觉助手)的发展历程展现了开源社区在多模态模型领域的突破性进展。从2023年4月首次提出视觉指令微调方法,到2024年8月推出功能全面的LLaV...

“AI教母”李飞飞的全新世界模型问世!一张英伟达AI芯片就能生成无限3D世界

李飞飞团队的最新研究成果RTFM(Real-Time Frame Model)标志着生成式世界模型技术取得重大突破。该模型基于大规模视频数据训练,能够通过输入1张或多张2D图...

新豆包模型让郭德纲喊出发疯文学:(这班)不上了!不上了!不上了!!!

火山引擎近期对豆包语音大模型进行了重大升级,推出了豆包语音合成模型2.0和豆包声音复刻模型2.0。此次升级的核心目标是让AI语音从“像人”走向“懂人”,通过深...

Adobe 新研究:不用再「喂」训练数据,VLM 靠和自己玩游戏变聪明

视觉语言模型(VLM)面临数据稀缺和人类知识天花板两大核心挑战。当前训练方法高度依赖人工标注数据和强化学习奖励设计,导致多模态标注成本高昂,且模型能力...

大模型追逐星辰大海,GPT和Gemini国际天文奥赛夺金

大型语言模型在国际天文学和天体物理学奥林匹克竞赛(IOAA)中展现出接近或超越人类金牌选手的卓越表现。最新研究以2022-2025年IOAA试题为基准,系统评估了GP...

ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

Meta的研究团队可能推出了「Segment Anything」系列的最新版本SAM 3,相关匿名论文已提交至ICLR 2026。该论文提出了「可提示概念分割」(PCS)任务,通过文本...

今天,好像见证了属于SD时代的消亡。

国内著名模型开源社区liblib宣布升级至2.0版本,标志着以Stable Diffusion为代表的开源AI绘画时代迎来重大转折。公告中提及'开源生态遇冷'与'新用户找不到方...
1 2 3 144