图像生成

图像,绘画

DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学

近期,一篇在 X 上的帖子引发了关于 DiT 模型的讨论。博主称 DiT 存在架构缺陷,并附上论文截图,图中展示了 TREAD 方法在提升基于 token 的扩散模型骨干网络...

图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示

Higgsfield AI是一家专注于AI视频生成的初创公司,曾与Meta探讨过潜在收购事宜但谈判已停止。该公司擅长电影级镜头控制技术,不断推出新功能和新模板,还整合...

AI 创业,小团队、第一天就出海,如何做到 500 万 ARR?

AI浪潮下,创业格局正发生深刻变革,小团队创业展现出强大的生命力和竞争力。「顶尖精益AI Native公司排行榜」罗列了40多家团队规模不大但营收可观的初创公司...

港大、哈工大、浙大发布可解耦创意3D模型

当前专注AIGC领域,聚焦大语言模型发展、应用落地、市场研究及开发者生态。主流3D生成模型如DreamFusion、TRELLIS等虽能创建逼真整体形状,但产出的是缺乏内...

长上下文不再难:KV Cache 全生命周期优化实战

长上下文大语言模型推动下游应用发展的同时,也带来计算和内存效率挑战。为应对这些挑战,围绕 KV 缓存的长上下文推理优化方法应运而生。1. 长文本大语言模型...

CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力

预测性策略在机器人操作任务中能提升性能,但让世界模型预测机器人与物体交互的精确未来状态仍是挑战。国防科大、北京大学、深圳大学团队提出 LaDi - WM 模型...

Figma 如何使用 AI 来支持而不是取代设计师

Figma在其设计平台集成AI,带来诸多变革与创新。非技术人员借助其AI功能,能在数小时内构建原型,部分代码精确到可让工程师直接投入生产,且设计师始终掌控最...

智谱AI、清华开源新视觉大模型:刷新41项纪录,同级别最强

智谱AI与清华大学联合开源最新视觉大模型GLM - 4.5V,其在多个领域表现卓越。测试数据显示,GLM - 4.5V在42项主流测试中创造41项新记录,尤其在视觉智能体方...

吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板

Meta训练出70亿参数的「视觉巨兽」DINOv3,通过自监督学习(SSL)训练可生成强大且高分辨率的图像特征,在多个密集预测任务中超越专用解决方案,重新定义计算...

Meta刚刚开源DINOv3,横扫60+任务,无标注封神!

今天凌晨,全球社交、科技巨头Meta开源了最新视觉大模型DINOv3,其主要创新在于使用自我监督学习,无需标注数据,能大幅降低训练所需时间和算力资源。- 模型...
1 2 3 4 5 141