标签:计算机视觉
打破显存墙:谢赛宁团队提出CLM,单卡RTX 4090「撬动」1亿高斯点
3D Gaussian Splatting (3DGS)是一种基于各向异性3D高斯体构建场景表示的新视角合成技术,能够通过带位姿的图像训练快速渲染未见视角,在渲染速度和图像质量...
3D重建的惊人进展:多所世界名校联合发布论文,告诉你AI在3D世界的研究现状
高质量的3D重建技术正经历从逐场景优化到前馈模型的革命性转变。传统方法如运动恢复结构(SfM)和神经辐射场(NeRF)需要针对每个新场景进行耗时数小时至数天...
字节用LLaVA + SAM-2抢先实现了SAM-3,用概念分割,无需位置标注
加州大学默塞德分校、字节跳动Seed团队、武汉大学和北京大学的研究人员成功将LLaVA和SAM-2两个AI模型整合,创造出名为Sa2VA的新型多模态系统。这一突破性成果...
万字硬核解读SAM 3:不止分割一切,它开始理解世界了
Meta最新的SAM 3模型在计算机视觉领域实现了重大突破,将分割模型从简单的视觉交互工具升级为能理解语义概念的视觉-语言多模态模型。该模型通过可提示概念分...
谢赛宁团队用RAE实现从8%到84%的飞跃,宣告VAE时代结束
谢赛宁团队提出的表征自编码器(RAE)架构在图像生成领域取得重大突破,将ImageNet图像生成的FID指标提升至1.13,标志着传统变分自编码器(VAE)时代的终结。...
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
Meta的研究团队可能推出了「Segment Anything」系列的最新版本SAM 3,相关匿名论文已提交至ICLR 2026。该论文提出了「可提示概念分割」(PCS)任务,通过文本...
吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板
Meta训练出70亿参数的「视觉巨兽」DINOv3,通过自监督学习(SSL)训练可生成强大且高分辨率的图像特征,在多个密集预测任务中超越专用解决方案,重新定义计算...
仅需0.7秒单图像实时3D重建,开源扩散模型
单图像3D重建是计算机视觉领域的一项基础且极具挑战的难题,旨在从单一视角的二维图像中恢复出三维物体的形状和结构。学术界和工业界主要探索了两种技术路线...
李飞飞在YC创业学院:从ImageNet到空间智能,AGI的关键转折
李飞飞博士作为计算机视觉领域的先驱,正带领团队探索空间智能这一前沿课题,旨在突破视觉智能的二维限制,迈向理解和重建三维世界的未来。她认为,空间智能...
招生信息 | 英国莱斯特大学举雅琨老师招收博士生了!
举雅琨博士自2024年起任职于英国莱斯特大学计算机与数学科学学院,担任助理教授。他长期致力于计算机视觉与图像处理领域的研究,尤其在三维重建、光度立体、...







