图像生成
图像,绘画
中心动态重分配哈希,北邮团队提出并开源CRH项目 | AAAI 2026
基于哈希中心的深度哈希方法已成为大规模图像检索的主流技术,但传统方法存在哈希中心初始化随机化、忽略类间语义关系的问题。两阶段方法SHC通过分离的中心生...
PixVerse V5.5 的震撼,做 AI 视频的人都知道这次更新的可贵之处
PixVerse V5.5模型的发布标志着国内AI视频生成技术迈入新阶段。作为首个具备Sora2级分镜能力的本土模型,其多镜头配置与音频原生直出的特性显著降低了专业级...
新任IEEE Fellow要来参加雷峰网GAIR大会啦!
国际电气和电子工程师协会(IEEE)公布了2026年新晋Fellow名单,共348位学者入选,其中华人学者126位,占比36.2%。AI领域有42位学者入选,研究方向涵盖高性能...
多模态思维链如何重塑 AI 与短视频的未来
快手高级算法专家文彬在AICon全球人工智能开发与应用大会上分享了Keye-VL多模态大模型的技术突破与应用实践。该模型通过多模态思维链技术实现了动态视频理解...
多人会话视频生成新突破:香港科技大学,浙江大学用单人数据实现多人交互视频生成
AnyTalker框架通过创新的音频-人脸交叉注意力机制(AFCA)和两阶段训练策略,实现了高质量、可扩展的多人对话视频生成。该技术由香港科技大学、浙江大学等机...
Sora 2两月留存率接近0%,奥特曼得学抖音快手?
OpenAI推出的视频生成应用Sora 2曾被视为颠覆短视频行业的'核武器',但市场反馈却极为冰冷。硅谷风投机构a16z合伙人Olivia Moore披露的数据显示,Sora 2的30...
NTU S-Lab 团队探索可动 3D 新方向:结构、关节、纹理一次到位
南洋理工大学 S-Lab 团队提出的 ArtiLatent 框架实现了从单张图像生成具备精确几何结构、合理关节参数和自然外观纹理的可动三维模型。该研究通过统一的结构化...
震撼全网!3位00后夺200万大奖,卷走鹅厂顶级Offer
历时四个月的腾讯广告算法大赛近日落下帷幕,这场汇聚全球30个国家、8400多名技术精英的「千团大战」最终由来自华中科技大学、北京大学和中国科学技术大学的...
视觉思维链全新架构,加州大学让多模态大模型有了灵性,整体性能提升5.3%
加州大学伯克利分校团队提出了一种名为视觉思维链(CoVT)的全新架构,旨在解决多模态大模型在处理视觉信息时被迫将其翻译成文本的局限性。人类通过视觉信号...
源神阿里!图像生成Ovis-Image再开源,7B小参数媲美GPT-4o和20B开源模型
在人工智能领域,图像生成技术正经历着快速迭代。阿里推出的Ovis-Image模型以7B参数实现了媲美20B+开源模型和GPT-4o的文本渲染能力,证明了通过优化的架构设...






